deutsch | italiano | english

 

 


 

Korpusdetails

 

1. Korpusannotation

Alle Korpora, die im Rahmen der Initiative Korpus Südtirol erstellt wurden, sind mit Hilfe von computerlinguistischen Werkzeugen tokenisiert und mit Satz- und Textgrenzen als weitere strukturelle Annotationen versehen.

Die Korpora sind auf Wortebene mit Wortart-Informationen nach dem STTS-Tagset und mit zugehörigen Lemmata getaggt. Dies wird halb-automatisch mit Hilfe des TreeTaggers (Schmid, 1994) durchgeführt.
Für die relevanten Korpora sind auch Südtirolismen nach Abfalterer (2007) gekennzeichnet.

Auf höheren linguistischen Beschreibungsebenen werden für interne Analysen Chunking-Werkzeuge (YAC; Kermes, 2003) eingesetzt.

 

2. Metadaten

Im Rahmen der Bestandsaufnahme für die Initiative Korpus Südtirol wurden für jeden Text, soweit möglich, die folgenden Metadaten erhoben:

AUTOREN            TEXTE: BIBLIOGRAPHISCHE ANGABEN
Vorname   Verlagsort
Nachname    Verlag
Pseudonym   Erstpublikationsjahr
Geburtsjahr    Auflage
Todesjahr   Bandnummer
Geburtsort ISBN
Hauptaufenthaltsort ISSN
Reihe bzw. Serien-Titel
TEXTE: ALLGEMEINES Serien-Untertitel
Art der Publikation Stücktitel
Sprache Ausgabe
Notizen Jahrgang
Datum
TEXTE: AUTOREN/TITEL
Titel TEXTE: BEARBEITUNG
Untertitel Herkunftsort
Autor/en Schriftart des Originals
Herausgeber Format der Quelle
Verantwortlichkeit für Scannen
TEXTE: KLASSIFIZIERUNG Verantwortlichkeit für OCR
Textsorte Verantwortlichkeit für Korrektur
Sachgruppen Verantwortlichkeit für Aufbereitung
Ursprungsregion
TEXTE: STATISTIK
TEXTE: RECHTE Seitenzahl gesamt
Verfügbarkeit


Bei der Korpussuche wird derzeit folgende Auswahl dieser Metadaten angezeigt:

Autor
Titel
Herausgeber
Verlag
Jahr
Datum
Textsorte
Art der Publikation
ggf. URL

 

3. Textmenge

Die Größe der im Rahmen der Initiative erstellten, aufbereiteten und verwendeten Korpora beträgt im Oktober 2011 ca. 660 Millionen, wovon rund 70 Millionen aus Südtirol stammen. In der Bestandsaufnahme wurden halb-automatisch ca. 300000 Einträge gesammelt, die sich jeweils auf ein Werk eines Autors (Buch, Zeitungsartikel, etc.) beziehen (vgl. Abel et al., 2009).

 

4. Quellenangaben

Abel, Andrea; Anstein, Stefanie; Petrakis, Stefanos (2009): Die Initiative Korpus Südtirol. In: Linguistik online 38, 2/2009; Tagung 'Vielfalt in Sprachkorpora' Basel; http://www.linguistik-online.de/38_09/abelEtAl.html.

Abfalterer, Heidemaria (2007): Der Südtiroler Sonderwortschatz aus plurizentrischer Sicht. Lexikalisch-semantische Besonderheiten im Standarddeutsch Südtirols. Innsbruck University Press.

Kermes Hannah (2003): Off-line (and On-line) Text Analysis for Computational Lexicography. Dissertationsschrift, Universität Stuttgart.

Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings of International Conference on New Methods in Language Processing. www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger