Forschungsprojekte

Forschungsprojekte am Fachgebiet Corpus- und Computerlinguistik, Englische Philologie

Auf dieser Seite finden Sie eine Übersicht über die Forschunsprojekte des Fachgebiets.

Das Projekt linguisticsweb.org beschäftigt sich mit der Entwicklung und Erstellung von Tutorials, How-tos, Links, Werkzeugen und Korpuszugängen zur Unterstützung von Forschungsaufgaben im Bereich der Linguistik, Corpus- und Computerlinguistik und der weiteren digitalen Philologien.

Ziel von linguisticsweb.org ist es, Studierende und Wisssenschaftler*innen bei der corpus- und computerbasierten Forschung durch die Bereitstellung von Materialien und Anleitungen zum Selbststudium und zur Begleitung der Lehre zu unterstützen und den eigenständigen Einsatz von Technologien und Methoden in der linguistischen und weiteren philologischen Forschung zu unterstützen.

Das Portal linguisticsweb-org wird in Forschung und Lehre sowie in Workshops eingesetzt und von internationalen Wissenschaftler*innen und Lehrenden genutzt.

linguisticsweb.org wurde 2008-09 als eigenständiges Online-Projekt erstellt und wird seitdem kontinuierlich weiterentwickelt.

Zur Webseite

Ziel des gemeinsamen Forschungsprojekts ist es, die Entwickler von NLP-Anwendungen zu ermutigen, ihre Tools und Ressourcen für die Bearbeitung schriftlich geführter Diskurse (in deutscher Sprache) in Bereichen der computergestützten Kommunikation (computer-mediated communication, CMC) anzupassen. Beispiele für CMC-Bereiche sind Chats, Foren, Wiki-Diskussionsseiten, Tweets, Blog-Kommentare, soziale Netzwerke, SMS- und WhatsApp-Dialoge.

In diversen Forschungsgebieten und Anwendungskontexten in den Digital Humanities ist die Bearbeitung von CMC-Diskursen als Desiderat und als relevante Aufgabe anzusehen:

- im Rahmen der Erstellung, Verarbeitung und Analyse von Korpora der computervermittelten Kommunikation / Social Media (Chat-Korpora, News-Korpora, WhatsApp-Korpora, …)

- im Rahmen der Sammlung, Verarbeitung und Analyse umfangreicher und genre-heterogener Web-Korpora als Ressourcen im Bereich der Sprachtechnologie / Data Mining

- im Kontext des Umgangs mit CMC-Daten in korpusbasierten Analysen zu zeitgenössischer Schriftsprache, Sprachvariation und Sprachwandel

- in allen Forschungsbereichen außerhalb der Linguistik, in denen soziale, kulturelle und pädagogische Aspekte von Social Media und CMC-Technologien unter Verwendung von Sprachdaten aus verschiedenen CMC-Bereichen behandelt werden

Die gemeinsame Aufgabe bestand aus zwei Unteraufgaben:

- Tokenisierung der CMC-Diskurse

- „Part-of-Speech“-Kennzeichnung der CMC-Diskurse

Die beiden Unteraufgaben verwendeten zwei unterschiedliche Datensätze:

- CMC-Datensatz: Eine Auswahl von Daten aus verschiedenen CMC-Bereichen (sozialer Chat, professioneller Chat, Wikipedia-Diskussionsseiten, Blog-Kommentare, Tweets, WhatsApp-Dialoge).

- Webkorpora-Datensatz: Eine Auswahl von Daten, die den schriftlichen Diskurs aus heterogenen WWW-Genres abbilden – bestehend aus gecrawlten Websites, einschließlich kleinerer Teile des CMC-Diskurses (z. B. Webseiten, Blogs, Nachrichtenseiten, Blogkommentare usw.).

Zur Webseite

Der LOEWE-Schwerpunkt Digital Humanities ist eine Kollaboration der Universität Frankfurt, der Technischen Universität Darmstadt und des Freien Deutsches Hochstifts / Frankfurter Goethe Museum. Zielsetzung: die Grundlagenforschung in den beteiligten geisteswissenschaftlichen Disziplinen im Hinblick auf informationstechnologische Verfahrensweisen miteinander zu vernetzen.

LOEWE-Schwerpunkt Digital Humanities – Integrierte Aufbereitung und Auswertung textbasierter Corpora, Mitantragstellerin und PI im Projektbereich „Gegenwartssprachliche Corpora“, 01.2011 – 12.2013

Partner: Prof. Dr. Iryna Gurevich, Prof. Dr. Gert Webelhuth, 01.2011 – 12.2013

Funded by the State of Hessen as part of the LOEWE initiative of excellence.

Gefördert durch die Exzellenzinitiative des Landes Hessen, LOEWE.

Zur Webseite

Im Rahmen von PACE – PARTNERS FOR THE ADVANCEMENT OF COLLABORATIVE ENGINEERING EDUCATION

Teilprojekt: „Scientific and technical literacy – Untersuchungen natürlichsprachlicher Kommunikation in der kollaborativen Produktentwicklung“; Partner: Prof. Dr.-Ing. Reiner Anderl und Prof. Dr. Elke Teich;

gefördert durch den Innovationsfonds des Landes Hessen 07.2004 – 01.2006