Forschungsprojekte

Forschungsprojekte am Fachgebiet Corpus- und Computerlinguistik, Englische Philologie

Entwicklung einer Meta-Methodik und eines konzeptuellen Rahmens zur transdisziplinären Tiefenerschließung und Analyse multimodaler digitaler Objekte. Demonstriert an den Use Cases KI- und Klimawandel-Diskurse

Projektförderung: BMBF-Verbundprojekt im Rahmen der Richtlinie zur Förderung von Forschungs- und Entwicklungsvorhaben zur theoretischen, methodischen und technischen Weiterentwicklung der digitalen Geisteswissenschaften, Bundesanzeiger vom 22.07.2019

Projektlaufzeit: 2021 – 2024

Projektpartner: Sabine Bartsch (Institut für Sprach- und Literaturwissenschaft, TU Darmstadt) | Tobias Hecking (Institut für Softwaretechnologie, DLR) | Wolfgang Stille (hessian.ai)

Projektmitarbeitende:

Debajyoti Paul Chowdhury

Changxu Duan

Sherry Tan

Elena Volkanovska

Ziel des Gesamtprojekts ist die Entwicklung und Erprobung eines Konzepts zur Tiefenerschließung multimodaler Datenbestände. Grundlage ist die Vernetzung unterschiedlicher Typen von digitalen Objekten, so dass eine echte Generierung von Wissen auf Basis digitaler Sammlungen möglich wird. Es basiert auf aktuellen geisteswissenschaftlichen und informationstechnologischen Theorien und Methoden mit dem Ziel einer transdisziplinären Erweiterung und Teilung von Wissen, die bislang durch mangelnde Vernetzung der Bestände und das Fehlen von Möglichkeiten der Anreicherung durch Annotation und Kommentierung verhindert wird. Zur Erprobung der entwickelten Konzepte werden transdisziplinäre multimodale Korpora (TMK) zu den exemplarischen Use Cases – Diskurse zum Klimawandel und Künstlicher Intelligenz – aufgebaut, manuell und automatisch annotiert, vernetzt und analysiert sowie in Expertinnenworkshops diskutiert und bewertet.

Ziel der Analyse und Bereitstellung vernetzter multimodaler Korpora ist die Entwicklung und Erprobung korpus- und computerlinguistischer Verfahren zu Aufbau, Annotation und Analyse multimodaler Korpora. Dabei wird zwischen den Partnern ein auf zwei Themenbereiche fokussiertes Korpus so aufbereitet, dass durch eine Kombination automatischer und manueller Annotationsverfahren und darauf aufbauenden Analysen eines Korpus aus zwei Beispieldomänen – Klimawandel und Künstliche Intelligenz – Merkmale identifiziert werden können, die sich als Grundlage für die semantische Vernetzung textueller und intertextueller linguistischer und multimodal kodierter Konzepte eignen und so die Zugriffsmöglichkeiten auf Text- und Datenkorpora erweitern. Die entwickelten Korpusdaten und Analyseszenarien werden in Expertenworkshops sowie in Workshops für Wissenschaftler*innen und die interessierte Öffentlichkeit erprobt und iterativ verbessert.

zur Projektwebsite: insightsnet.org

Projektlaufzeit: 2021-2022

Projektförderung: Studentische e-Learning Experten: HDA, Technische Universität Darmstadt

Projektmitarbeit: Julian Steitz

Der Einsatz von Technologie nimmt in geisteswissenschaftlichen Studiengängen der TU Darmstadt einen festen Platz ein. Studierende der Digital Humanities-Studiengänge (BA Digital Philology, MA Linguistic and Literary Computing) lernen im Rahmen des Studiums den Umgang mit digitalen linguistischen Werkzeugen sowie das Programmieren anhand der Programmiersprache Python, was in den sprach- und textanalytisch arbeitenden Fächern den Aufbau komplexerer Datenanalyse-Workflows ermöglicht. Ziel dieses Projekts ist die Entwicklung eines fachlich und didaktisch gut strukturierten e-Learning-Angebots für Studierende der digitalen Geisteswissenschaften anhand eines aktivierenden Programms aus fachrelevanten Materialien und Übungen auf der Grundlage fachlicher Inhalte.

zur Projektwebsite

Das Projekt linguisticsweb.org beschäftigt sich mit der Entwicklung und Erstellung von Tutorials, How-tos, Links, Werkzeugen und Korpuszugängen zur Unterstützung von Forschungsaufgaben im Bereich der Linguistik, Corpus- und Computerlinguistik und der weiteren digitalen Philologien.

Ziel von linguisticsweb.org ist es, Studierende und Wisssenschaftler*innen bei der corpus- und computerbasierten Forschung durch die Bereitstellung von Materialien und Anleitungen zum Selbststudium und zur Begleitung der Lehre zu unterstützen und den eigenständigen Einsatz von Technologien und Methoden in der linguistischen und weiteren philologischen Forschung zu befördern.

Das Portal linguisticsweb.org wird in Forschung und Lehre sowie in Workshops eingesetzt und von internationalen Wissenschaftler*innen und Lehrenden genutzt.

linguisticsweb.org wurde 2008-09 als eigenständiges Online-Projekt erstellt und wird seitdem von mir kontinuierlich weiterentwickelt.

linguisticsweb.org ist seit 2021 Teil der CLARIAH-DE Collection Registry und somit über den CLARIAH-DE Tutorial Finder durchsuchbar.

zur Projektwebsite

Ziel des gemeinsamen Forschungsprojekts ist es, die Entwickler von NLP-Anwendungen zu ermutigen, ihre Tools und Ressourcen für die Bearbeitung schriftlich geführter Diskurse (in deutscher Sprache) in Bereichen der computergestützten Kommunikation (computer-mediated communication, CMC) anzupassen. Beispiele für CMC-Bereiche sind Chats, Foren, Wiki-Diskussionsseiten, Tweets, Blog-Kommentare, soziale Netzwerke, SMS- und WhatsApp-Dialoge.

In diversen Forschungsgebieten und Anwendungskontexten in den Digital Humanities ist die Bearbeitung von CMC-Diskursen als Desiderat und als relevante Aufgabe anzusehen:

- im Rahmen der Erstellung, Verarbeitung und Analyse von Korpora der computervermittelten Kommunikation / Social Media (Chat-Korpora, News-Korpora, WhatsApp-Korpora, …)

- im Rahmen der Sammlung, Verarbeitung und Analyse umfangreicher und genre-heterogener Web-Korpora als Ressourcen im Bereich der Sprachtechnologie / Data Mining

- im Kontext des Umgangs mit CMC-Daten in korpusbasierten Analysen zu zeitgenössischer Schriftsprache, Sprachvariation und Sprachwandel

- in allen Forschungsbereichen außerhalb der Linguistik, in denen soziale, kulturelle und pädagogische Aspekte von Social Media und CMC-Technologien unter Verwendung von Sprachdaten aus verschiedenen CMC-Bereichen behandelt werden

Die gemeinsame Aufgabe bestand aus zwei Unteraufgaben:

- Tokenisierung der CMC-Diskurse

- „Part-of-Speech“-Kennzeichnung der CMC-Diskurse

Die beiden Unteraufgaben verwendeten zwei unterschiedliche Datensätze:

- CMC-Datensatz: Eine Auswahl von Daten aus verschiedenen CMC-Bereichen (sozialer Chat, professioneller Chat, Wikipedia-Diskussionsseiten, Blog-Kommentare, Tweets, WhatsApp-Dialoge).

- Webkorpora-Datensatz: Eine Auswahl von Daten, die den schriftlichen Diskurs aus heterogenen WWW-Genres abbilden – bestehend aus gecrawlten Websites, einschließlich kleinerer Teile des CMC-Diskurses (z. B. Webseiten, Blogs, Nachrichtenseiten, Blogkommentare usw.).

Zur Webseite

Der LOEWE-Schwerpunkt Digital Humanities ist eine Kollaboration der Universität Frankfurt, der Technischen Universität Darmstadt und des Freien Deutsches Hochstifts / Frankfurter Goethe Museum. Zielsetzung: die Grundlagenforschung in den beteiligten geisteswissenschaftlichen Disziplinen im Hinblick auf informationstechnologische Verfahrensweisen miteinander zu vernetzen.

LOEWE-Schwerpunkt Digital Humanities – Integrierte Aufbereitung und Auswertung textbasierter Corpora, Mitantragstellerin und PI im Projektbereich „Gegenwartssprachliche Corpora“, 01.2011 – 12.2013

Partner: Prof. Dr. Iryna Gurevich, Prof. Dr. Gert Webelhuth, 01.2011 – 12.2013

Funded by the State of Hessen as part of the LOEWE initiative of excellence.

Gefördert durch die Exzellenzinitiative des Landes Hessen, LOEWE.

Zur Webseite

Im Rahmen von PACE – PARTNERS FOR THE ADVANCEMENT OF COLLABORATIVE ENGINEERING EDUCATION

Teilprojekt: „Scientific and technical literacy – Untersuchungen natürlichsprachlicher Kommunikation in der kollaborativen Produktentwicklung“; Partner: Prof. Dr.-Ing. Reiner Anderl und Prof. Dr. Elke Teich;

gefördert durch den Innovationsfonds des Landes Hessen 07.2004 – 01.2006