Creating a Multilingual Eye-Tracking Corpus for Human and Machine-Based Language Processing

Ziel dieses Projekts ist das Erstellen eines multilingualen Eyetracking-Korpus, das Blickbewegungsdaten beim Lesen von Texten in typologisch verschiedenen sowie verwandten Sprachen enthält. Es sollen slawische Sprachen (Kroatisch, Mazedonisch, Russisch, Slowenisch), romanische Sprachen (Französisch, Portugiesisch, Rätoromanisch, Spanisch), germanische Sprachen (Dänisch, Deutsch, Niederländisch, Englisch), baltische Sprachen (Lettisch, Litauisch), eine semitische Sprache (Maltesisch), eine finno-ugrische Sprache (Estnisch) sowie das keiner Sprachfamilie zugehörige Baskische enthalten sein. Das Korpus soll teilweise aus parallelen (übersetzten) und teilweise aus originalen – jedoch in Inhalt und Register vergleichbaren – Texten aufgebaut werden. Das Korpus soll derart aufgebaut sein, dass es als Ressource sowohl zur sprachübergreifenden psycholinguistischen Erforschung der menschlichen Sprachverarbeitung als auch zur Weiterentwicklung maschineller Sprachmodelle herangezogen werden kann. Die oben beschriebenen Limitationen bestehender Datensätze sollen vermieden werden. So sollen begleitend zu den Eyetracking-Experimenten psychometrische Tests durchgeführt und demographische Daten erhoben werden und bei der Auswahl der Proband*innen soll auf die demographische Ausgeglichenheit der Stichprobe geachtet werden. Im Bereich der Psycholinguistik soll der Datensatz erstmals die Möglichkeit schaffen, bestehende Theorien sprachübergreifend zu evaluieren sowie neue Theorien direkt aus der cross-linguistischen Perspektive heraus zu entwickeln, um somit eine höhere externe Validität zu erreichen als bisherige, ausschliesslich auf Basis des Englischen entwickelte Theorien zur menschlichen Sprachverarbeitung. Im Bereich der Sprachtechnologie soll der Datensatz es ermöglichen, state-of-the-art neuronale Sprachmodelle intrinsisch auf deren kognitive Plausibilität hin zu evaluieren, deren Interpretierbarkeit zu verbessern (cognitively explainable NLP) und ihr Verhalten natürlicher (menschenähnlicher) und somit akkurater zu machen (cognitively enhanced NLP). Der Datensatz soll weiterhin dazu dienen, technologische Lösungen zu finden, so dass kleinere Sprachen am sprachtechnologischen Fortschritt teilhaben können (cognitively enhanced transfer learning).
Sep 01, 2022
Aug 31, 2025