Forschungsprojekte

Forschungsprojekte am Fachgebiet Germanistik – Digitale Literaturwissenschaft

Die Digital Humanities Cooperation ist eine Forschungsinitiative der TU Darmstadt, der ETH Zürich und der Universität Konstanz. Sie versteht sich als Anlaufstelle für digitale Analysen mit methodenkritischer Perspektive.

Wir gehen davon aus, dass die quantitativen und empirischen Methoden, die momentan Konjunktur haben, auch unsere etablierten hermeneutischen Verfahren und vor allem das Verhältnis von Theorie und Methode in der Literatur- und Kulturwissenschaft verändern. Die technischen Möglichkeiten zur digitalen und statistischen Analyse von Texten, Bildern, Objekten und Artefakten haben einen Entwicklungsstand erreicht, der gerade im Rahmen europäischer und globaler Studien der methodischen Reflexion bedarf, weil die digitale Technik insbesondere auf dieser Ebene, wo große Materialmengen verarbeitet werden müssen, neue Erkenntnismöglichkeiten eröffnet.

Im Rahmen der DHC interessieren uns mögliche Theorien für Operationalisierungen von Forschungsfragen in den Digital Humanities gerade auch in Fällen, in den z.B. stilometrische Operationalisierungen bestehende Konzepte verändern oder Theorien als nicht operationalisierbar ausweisen. Im Ringen mit der methodischen Grundfrage, in welchem Verhältnis statistische und hermeneutische Methoden stehen und ob sie sich auf gewinnbringende Weise verbinden lassen, berücksichtigen wir auch Ansätze aus der kognitionspsychologischen Literaturwissenschaft.

Mehr Informationen

Projektleitung: Prof. Dr. Thomas Weitin (TU Darmstadt), Ulrik Brandes (ETH Zürich)

Förderung: DFG-Schwerpunktprogramm „Computational Literary Studies“ (2019-2022), Swiss National Science Foundation.

In den letzten 15 Jahren hat die Literaturwissenschaft enorm von den neuen Methoden der Digital Humanities profitiert. Diese Entwicklung bringt allerdings auch Skepsis mit sich, welche sich besonders auf dem scheinbaren Gegensatz von kritischer Reflexion und statistischer Analyse bezieht. Entgegen diesen Bedenken ist aber die Entwicklung der digitalen Literaturwissenschaft äußerst produktiv, da ihre Anwendung Ergebnisse schafft, die nicht nur bereits bestehende Hypothesen unterstützen, sondern neue Erkenntnisse über unsere Arbeit und unsere Fragen ermöglichen. Wir wollen durch die Entwicklung netzwerkbasierter Analysemethoden dazu beitragen, Aussagen über umfangreiche unsichtbare, also dekanonisierte, Literaturen (Franco Moretti's „great unread“) zu ermöglichen. Hierzu wird ein Korpus aus deutsch- und englischsprachiger Literatur des 18. Jahrhunderts und der Goethezeit im Speziellen untersucht. Die mehr als 400 ausgewählten Romane und Erzählungen liegen in digitalisierter Form vor und stehen exemplarisch für die großen Textmassen die sich den einzelnen Leserinnen und Leser entziehen und schließlich vergessen werden. Das wesentliche Forschungsinteresse besteht an der automatisierten Abgrenzung von Texten sowie der wechselnden Bedeutung einzelner Texte in Textsammlungen, die nach verschiedenen Kriterien ausgewählt werden. Insbesondere sind wir am Einfluss der Zusammenstellung literaturwissenschaftlicher Korpora auf die Positionen weiblicher Autorinnen interessiert. Dazu sollen geeignete Merkmale identifiziert und Gruppierungsmethoden entwickelt werden, die Netzwerkrepräsentationen verwenden und dabei über den Vergleich von Häufigkeiten und gemeinsamem Auftreten von Wörtern hinaus gehen. So sollen Netzwerkmodelle verschiedener Datentypen (z.B. stilometrischer oder semantischer Daten) entwickelt werden, welche die Literaturgeschichte anhand von Gruppierungsprozessen nachvollzieht.

Projektleitung: Prof. Dr. Thomas Weitin (TU Darmstadt), Ulrik Brandes (ETH Zürich)

Förderung: Volkswagen Stiftung

Das Projekt ‚Reading at Scale‘ beruht auf folgendem Ansatz: Wenn hermeneutische und statistische Methoden ihre je eigenen Stärken in der detaillierten Einzelanalyse und im Umgang mit großen Datenmengen haben, ist ein Mixed Methods-Ansatz besser für die mittlere Ebene geeignet als die beiden Methoden allein. Literarische Texte und Textkorpora ermöglichen Analysen in unterschiedlichen Auflösungsstufen von der Zeichenebene im einzelnen Werk bis hin zu ganzen Literaturen, wobei Literaturwissenschaft und Literaturgeschichte traditionell viele Forschungsfragen auf der mittleren Ebene untersuchen. Im Fokus unserer Studien steht eine historische Sammlung von 86 Novellen, die unter dem Titel „Der deutsche Novellenschatz“ (24 Bände, 1871-1876) von den Herausgebern Paul Heyse und Hermann Kurz veröffentlicht wurde. Wir haben diese realismusorientierte Anthologie bereits als TEI/XML Korpus aufbereitet, weitere solche Sammlungen werden folgen. Dank ihrer mittleren Größe liegt die Novellensammlung noch in der Reichweite individueller Lektüre und hat doch schon eine für statistische Analysen vielversprechende Größe. Unser Textkorpus wird von zwei Dissertationen auf unterschiedlichen Operationalisierungsstufen untersucht: (1) eine Netzwerkanalyse beschäftigt sich mit Problemen der Distinktion innerhalb populärer Literatur; (2) eine vergleichende Studie untersucht den „Deutschen Novellenschatz“ als ein wirkungsvolles Instrument der Kanonisierung und als programmatischen Versuch einer nicht-narrativen Literaturgeschichte. Die beiden Projektleiter integrieren die Einzelstudien aus der Perspektive methodologischer Grundlagenforschung: Ein algorithmisches Subprojekt eruiert Konzepte der Position in der Netzwerkforschung, ein literaturwissenschaftliches Subprojekt konzentriert sich auf Probleme der Validierung bei digitalen Analysen.

Publikationen im Projektzusammenhang
  • Brandes, Ulrik, Weitin, Thomas, Päpcke, Simon, Pupynina, Anastasia, Herget, Katharina (2019): Distance measures in a non-authorship context. The effect on the „Deutsche Novellenschatz“ (im Erscheinen).
  • Weitin, Thomas (2019): Burrows‘s Delta und Z-Score-Differenz im Netzwerkvergleich. Analysen zum Deutschen. Novellenschatz von Paul Heyse und Hermann Kurz (1871-1876), in: Digitale Literaturwissenschaft. Beiträge des DFG-Symposiums, hrsg. v. Fotis Jannidis, Stuttgart (im Erscheinen).
  • Weitin, Thomas (2017): (Hg.): Scalable Reading. Zeitschrift für Literaturwissenschaft und Linguistik, 47.1.
  • Weitin, Thomas (2017): Literarische Heuristiken: Die Novelle des Realismus, in: Komplexität und Einfachheit. DFG-Symposion 2015, hrsg. v. Albrecht Koschorke, Stuttgart, S. 422–442.
  • Weitin, Thomas, Herget, Katharina (2017): Falkentopics: Über einige Probleme beim Topic Modeling literarischer Texte, in: Zeitschrift für Literaturwissenschaft und Linguistik, 47.1, S. 29–48.
  • Weitin, Thomas (2016): Heuristik des Wartens. Literatur lesen unter dem Eindruck von big data, in: Warten als Kulturmuster, hrsg. v. Julia Kerscher, Xenia Wotschal, Würzburg, S. 180–196.
  • Weitin, Thomas (2016): Selektion und Distinktion. Paul Heyses und Hermann Kurz ́Deutscher Novellenschatz als Archiv, Literaturgeschichte und Korpus, in: Archiv/Fiktionen. Verfahren des Archivierens in Literatur und Kultur des langen 19. Jahrhunderts, hrsg. v. Daniela Gretz, Nicolas Pethes, Freiburg 2016, S. 385–408.
  • Weitin, Thomas, Gilli, Thomas, Kunkel, Nico (2016): Auslegen und Ausrechnen: Zum Verhältnis hermeneutischer und quantitativer Verfahren in den Literaturwissenschaften, in: Zeitschrift für Literaturwissenschaft und Linguistik, 46,1, S. 103–115.
Korpora
  • Weitin, Thomas (2016): Volldigitalisiertes Textkorpus. Der Deutsche Novellenschatz. Herausgegeben von Paul Heyse, Hermann Kurz. 24 Bände, 1871-1876. Darmstadt/Konstanz, http://www.deutschestextarchiv.de/doku/textquellen#novellenschatz.
  • Weitin, Thomas (2018): Volldigitalisiertes Textkorpus. Der Neue Deutsche Novellenschatz. Herausgegeben von Paul Heyse, Ludwig Laistner. 24 Bände, 1884-1887. Darmstadt, im Erscheinen.

Mehr Informationen

Projektleitung: Prof. Dr. Thomas Weitin

Literaturwissenschaftliche Textkorpora

Nachhaltige und qualitativ hochwertige digitale Anwendungen und Operationalisierungen von (literaturwissenschaftlichen) Fragestellungen beruhen notwendigerweise auf geeignete und stabilen Korpora. Viele kanonisierte Klassiker und Werke sind mittlerweile frei im Internet verfügbar und können auf Webseiten wie etwa dem Projekt Gutenberg DE frei heruntergeladen werden. Aus editionsphilologischer und korpuskritischer Perspektive sind diese digitalen Texte allerdings häufig unzuverlässig: Manchmal sind die zugrundeliegenden Textquelle und Editionen nicht gekennzeichnet, die Dateien sind oft nur im einfachen txt-Format verfügbar, ohne Formatierungen oder tiefergehende Textauszeichnungen. Die Fehlerquoten der verwendeten OCR-Reader (gemeint sind hier Programme zur optical character recognition, die beispielsweise aus PDF-Dateien maschinenlesbaren Text) variierten stark, was wiederum die Qualität der Korpora stark beeinflusst. Initiativen wie das Deutsche Textarchiv stellen sich diesem Trend entgegen, indem hier ein historisches Referenzkorpus nach strengen Richtlinien und hohen Qualitätsstandards (u.a. durch die Prämisse der Erstausgabenverwendung) anstreben.

Zugleich vertritt die digitale Literaturwissenschaft auch den Anspruch, sich in Ihren Analysen und Forschungsgegenständen von dem traditionalen Kanon der Literatur zu lösen bzw. diesen zu erweitern. Die stetige Erstellung und Erweiterung literarischer Korpora ist entsprechend häufig ein signifikanter Aspekt vieler Forschungsprojekte.

Der Korpus-Workflow am Beispiel des Neuen Novellenschatzes

Im Juni 2015 wurde im Vorbereitung zu der Arbeitstagung „Scalable Reading. Paul Heyses Deutscher Novellenschatz zwischen Einzeltext und Makroanalyse“ das erste, unter der Leitung von Thomas Weitin erstellte TEI-XML-Korpus des Deutschen Novellenschatz, einer historischen Sammlung von 86 Novellen, veröffentlicht von Paul Heyse und Hermann Kurz (24 Bände, 1871-1876), eigenständig erstellt. Dieses Korpus wurde kontinuierlich verbessert und mit Metadaten angereichert werden, um die Forschung zu der populären Novellensammlung des 19. Jahrhunderts voranzutreiben.

Der mittlerweile etablierte Korpus-Workflow wurde seither kontinuierlich erweitert und professionalisiert. Die Korpora werden mittels eines corrected OCR-Verfahrens erstellt:

Die digitalen Repräsentation des Textes (in der Regel PDF-Formate) werden in einem ersten Schritt mittels Abbyy FineReader-Software, die sich besonders gut zur Erkennung von Frakturschrift eignet, in maschinenlesbaren Text umgewandelt. Daraufhin wird der erkannte Text von spezifisch geschulten Hilfskräften in einem zweiten Schritt manuell kontrolliert und korrigiert und im txt-Format gespeichert, einige Korpora werden zudem in ein TEI-konformes XML-Schema übertragen.

Weitere Korpusprojekte

Neben dem Deutschen Novellenschatz wurde mittlerweile auch der Neue Deutschen Novellenschatz von Paul Heyse und Ludwig Laistner (70 Novellen in 24 Bänden, 1884-1887) digitalisiert und aufbereitet. Außerdem begannen wir mit den Korpusvorbereitungen für den letzten fehlenden Novellenschatz, den Novellenschatz des Auslandes mit 57 übersetzten Novellen, ebenfalls erschienen bei Paul Heyse und Hermann Kurz (14 Bände, 1872-1876). Somit ist unser literarisches Novellenkorpus fast vollständig und bereit für die Analyse. Parallel zu diesem werden auch andere historische Quellen aufbereitet und digitalisiert, etwa die umfangreiche Briefkorrespondenz zwischen Paul Heyse und Hermann Kurz (1858-1873, über 700 Briefe), die während des Publikationsprozesses der Novellenschatz-Sammlung entstand.

Mit Der neue Pitaval digitalisieren wir zudem „eine Sammlung der interessantesten Kriminalgeschichten aller Länder aus älterer und neuerer Zeit“, die von Julius Eduard Hitzig und Willibald Alexis (Wilhelm Häring) herausgegeben wurde (60 Bände, 1842-1890).

Die entstehenden digitalen Korpora werden im Sinne von Open Access im deutschen Textarchiv veröffentlicht und so zur freien Forschung bereitgestellt.

Projektpublikationen
  • Weitin, Thomas (2016). Volldigitalisiertes Textkorpus. Der Deutsche Novellenschatz. Herausgegeben von Paul Heyse, Hermann Kurz. 24 Bände, 1871-1876. Darmstadt/Konstanz, http://www.deutschestextarchiv.de/doku/textquellen#novellenschatz
  • Weitin, Thomas (2018). Volldigitalisiertes Textkorpus. Der Neue Deutsche Novellenschatz. Herausgegeben von Paul Heyse, Ludwig Laistner. 24 Bände, 1884-1887. Darmstadt (im Erscheinen).
Weitere Links
  • Deutsches Textarchiv. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Herausgegeben von der Berlin-Brandenburgischen Akademie der Wissenschaften, Berlin 2019. http://www.deutschestextarchiv.de
  • Project Gutenberg. Herausgegeben von der Project Gutenberg Literary Archive Foundation. www.gutenberg.org
  • Projekt Gutenberg-DE. Herausgegeben von der Hille & Partner GbR. http://gutenberg.spiegel.de