Korpuslinguistik

 

Als Teilbereich der Computerlinguistik / Maschinellen Sprachverarbeitung befasst sich die Korpuslinguistik mit dem Erstellen von umfangreichen elektronischen Textsammlungen und deren Verwendung für empirische Belegsammlung von Sprachdaten. Für die linguistische Nutzung werden Texte mit korpuslinguistischen Computerprogrammen 'aufbereitet', z.B. automatisch mit Textstruktur- oder Wortartinformationen angereichert und in eine Abfrageumgebung eingebunden.

Die Anwendungsgebiete der Korpuslinguistik reichen von der Lexikonerstellung über semantische Anwendungen bis hin zur Maschinellen Übersetzung.

 

 

Um ein Textkorpus zu entwickeln sind u.a. folgende Schritte notwendig:

  • Ausformulierung einer Forschungsfrage; Design
  • (Digitalisierung von Textdaten, falls notwendig)
  • Datenaufbereitung / Standardisierung
  • strukturelle und linguistische Annotation
  • Integration in eine Abfrageumgebung

 

Textkorpora können in der Regel über eine Benutzeroberfläche durchsucht werden. Dabei bieten verschiedene Systeme und Werkzeuge vielfältige Möglichkeiten. Von der einfachen Wortsuche ausgehend (KWIC- / KeyWords in Context-Suche), können ausgefeilte statistische Methoden Aufschluss über Worthäufigkeiten und -verteilungen liefern.

 

 

      »» mehr Informationen in der einschlägigen Literatur