Fachgebiete

Fachgebiet Germanistik – Digitale Linguistik

Die digitale Linguistik beschäftigt sich mit digitalen bzw. digitalisierten Sprachdaten. Sie entwickelt Verfahren, mit denen Sprache in digitaler Form gesammelt, aufbereitet, strukturiert, annotiert und analysiert wird.

Über das Fachgebiet

Fachgebietsleitung:Prof. Dr. Marcus Müller

"You shall know a word by the company it keeps" (John R. Firth 1957: 11)

Was ist Digitale Linguistik?

Unser zentraler Gegenstand sind digitale Korpora, die ganz unterschiedliche Gattungen repräsentieren können, z.B. Zeitungstexte, politische Debatten, wissenschaftliche Aufsätze, Tweets, Online-Foren, Blogs und vieles mehr.

Zu diesem Zweck arbeiten wir daran, digitale Infrastrukturen zu entwickeln und aufzubauen, mit denen wir gemeinsam digitale Analysen durchführen und Zwischenergebnisse miteinander vergleichen können. Da unser wichtigster Arbeitsbereich die Digitale Diskursanalyse ist, heißt unsere kollaborative Infrastruktur Discourse Lab.

Auf diesem Weg analysieren wir Sprache auf der Ebene von Wörtern (Lexik, Wortbildung), Phrasen und Sätzen (Syntax) sowie Äußerungen (Text und Gespräch). Unser Hauptinteresse gilt dabei dem Verhältnis von Sprache, Wissen und Gesellschaft (dokumentiert z.B. in Felder, Müller & Vogel 2012). Fragen in dem Zusammenhang können sein:

  • Wie entsteht ein wissenschaftlicher Terminus und wie verändert er sich mit der Zeit?
  • Was passiert in interdisziplinären Debatten, wenn Wissenschaftler*innen verschiedener Disziplinen dasselbe Wort verwenden, aber unterschiedliche Konzepte damit verknüpfen?
  • In welchem Ausmaß und mit welchen sprachlichen Mitteln wird eine neue Technologie in unterschiedlichen Nationaldiskursen als ‚riskant‘ bewertet?
  • In welchem Ausmaß werden unterschiedliche Wissensbereiche wie Ökonomie, Umwelt oder Politik in deutschen und britischen Medien mit dem Klimawandel verknüpft?
  • Wieso verwenden Journalist*inn*en in Mediendebatten über Bioethik besonders häufig Formulierungen des Typs also auch, aber doch, eben halt?

Operationalisierung

Um solche sprachwissenschaftliche Fragen mittels Korpusanalysen bearbeiten zu können, müssen wir aus ihnen Arbeitshypothesen ableiten, die wir dann testen können. Es gilt nämlich, was der Korpuslinguist Stefan Gries (2009: 1226) eindrücklich beschrieben hat:

„… there are no meanings, no functions, no concepts in corpora – corpora are (usually text) files and all you can get out of such files is distributional (or quantitative ⁄ statistical) information.”

Da wir uns aber normalerweise nicht für die Verteilung von Ausdrücken in Datenpopulationen, sondern für den sozialen Sinn von Sprache interessieren, müssen wir aus jeder Forschungsfrage über Sprache eine Hypothese über die statistische Verteilung sprachlicher Ausdrücke in einem Korpus ableiten, die man testen kann. Dieses Verfahren nennt man „Operationalisierung“. Zu diesem Zweck erstellen wir z.B. Annotationskategorien bzw. -schemata, mit denen verschiedene sprachliche Phänomene in Texten erfasst und nach bestimmten Kriterien ausgezeichnet und analysiert werden können.

Beispielsweise könnte man die Fragestellung, wie in bestimmten Texten sprachlich bewertet wird, operationalisieren, indem man zunächst mögliche Ausdrucksformen des Bewertens systematisch zusammenstellt und voneinander abgrenzt, diese Kategorien dann den Stellen in den Texten zuordnet (diese Stellen mit einer entsprechenden Auszeichnung versieht) und die so angereicherten Texte analysiert, beispielsweise die Verteilung und das Vorkommen verschiedener Bewertungsformen untersucht und im Hinblick auf die Ausgangsfrage interpretiert.

Da solche Forschungsvorhaben oft unterschiedliche Kenntnisse erfordern (z.B. aus der Linguistik, Informatik, Statistik, Soziologie, Politikwissenschaft, Philosophie), ist die digitale Linguistik ein stark interdisziplinär geprägtes Arbeitsfeld. Eine der wichtigsten Eigenschaften von digitalen Linguist*inn*en ist daher die Fähigkeit, in Teams zusammenzuarbeiten, und die Lust darauf, immer wieder dazuzulernen.

Kollaboration ist also für uns unerlässlich, weil wir in gemischten Teams Perspektiven aus verschiedenen Disziplinen zusammenbringen können. Der Austausch zwischen verschiedenen Wissenschaftlerinnen und Wissenschaftlern bei der Arbeit am Untersuchungsgegenstand ist für uns aber auch deshalb wichtig, weil unsere Arbeit oft darin besteht, sprachlichen Zeichen bestimmten Merkmalskategorien zuzuordnen. Wir stellen z.B. fest, dass ein Wort ein Substantiv ist oder dass es sich bei einem Satz um ein Argument handelt. Solche Zuordnungen nennt man Annotation. Manche Annotationen (z.B. Wortartenkategorisierung) werden meist automatisch durchgeführt, andere macht man manuell und versucht dann, sie zu automatisieren. In jedem Fall ist es wichtig abzusichern, dass solche Zuordnungen nicht dem Sprachgefühl eines Einzelnen entspringen, sondern dass innerhalb eines Teams darüber Konsens besteht. Den Konsens unter Annotatorinnen und Annotatoren nennt man „Inter-Annotator-Agreement".

Genannte Literatur

  • Felder, Ekkehard, Marcus Müller & Friedemann Vogel (Hgg.) (2012): Korpuspragmatik. Thematische Korpora als Basis diskurslinguistischer Analysen von Texten und Gesprächen. Berlin / Boston: De Gruyter.
  • Gries, S. Th. (2009), What is Corpus Linguistics?. Language and Linguistics Compass, 3: 1225–1241. doi:10.1111/j.1749-818X.2009.00149.x, p. 1226.
  • Firth, John R. (1957): Papers in Linguistics (1934–1951). Oxford: University Press.

Ausgewählte Publikationen des Fachgebiets

  • Bender, Michael (2016): Forschungsumgebungen in den Digital Humanities: Nutzerbedarf, Wissenstransfer, Textualität. Reihe: Sprache und Wissen (SuW) 22. Berlin, Boston: de Gruyter. 2016.
  • Harald Lordick, Rainer Becker, Michael Bender, Luise Borek, Canan Hastik, Thomas Kollatz, Beata Mache, Andrea Rapp, Ruth Reiche, Niels-Oliver Walkowski: Digitale Annotationen in der geisteswissenschaftlichen Praxis. In: Bibliothek Forschung und Praxis. Hrsg. Bonte, Achim et al. Band 40, Heft 2 (Juli 2016). Berlin, Boston: de Gruyter. S.186-199.
  • Marcus Müller (2015): Sprachliches Rollenverhalten: Korpuspragmatische Studien zu divergenten Kontextualisierungen in Mündlichkeit und Schriftlichkeit. Berlin / Boston: De Gruyter (Sprache und Wissen).
  • Andreas Lösch & Marcus Müller (Hgg.) (2014): Risikodiskurse/Diskursrisiken – Sprachliche Formierungen von Technologierisiken und ihre Folgen. Themenschwerpunkt (2/2014) der Zeitschrift „Technikfolgenabschätzung – Theorie und Praxis“ (http://www.tatup-journal.de/). Karlsruhe: Institut für Technikfolgenabschätzung und Systemanalyse (ITAS).
  • Marcus Müller (2012): Vom Wort zur Gesellschaft: Kontexte in Korpora: Ein Beitrag zur Methodologie der Korpuspragmatik. In: Ekkehard Felder / Marcus Müller / Friedemann Vogel (Hgg.): Korpuspragmatik. Thematische Korpora als Basis diskurslinguistischer Analysen., S. 33–82.