|
Korpusdetails
1. Korpusannotation
Alle Korpora, die im Rahmen der Initiative Korpus Südtirol erstellt wurden, sind mit Hilfe von computerlinguistischen Werkzeugen tokenisiert und mit Satz- und Textgrenzen als weitere strukturelle Annotationen versehen.
Die Korpora sind auf Wortebene mit Wortart-Informationen nach dem STTS-Tagset und mit zugehörigen Lemmata getaggt. Dies wird halb-automatisch mit Hilfe des TreeTaggers (Schmid, 1994) durchgeführt. Für die relevanten Korpora sind auch Südtirolismen nach Abfalterer (2007) gekennzeichnet.
Auf höheren linguistischen Beschreibungsebenen werden für interne Analysen Chunking-Werkzeuge (YAC; Kermes, 2003) eingesetzt.
2. Metadaten
Im Rahmen der Bestandsaufnahme für die Initiative Korpus Südtirol wurden für jeden Text, soweit möglich, die folgenden Metadaten erhoben:
| AUTOREN |
TEXTE: BIBLIOGRAPHISCHE ANGABEN |
| Vorname |
Verlagsort |
| Nachname |
Verlag |
| Pseudonym |
Erstpublikationsjahr |
| Geburtsjahr |
Auflage |
| Todesjahr |
Bandnummer |
| Geburtsort |
ISBN |
| Hauptaufenthaltsort |
ISSN |
|
Reihe bzw. Serien-Titel |
| TEXTE: ALLGEMEINES |
Serien-Untertitel |
| Art der Publikation |
Stücktitel |
| Sprache |
Ausgabe |
| Notizen |
Jahrgang |
|
Datum |
| TEXTE: AUTOREN/TITEL |
|
| Titel |
TEXTE: BEARBEITUNG |
| Untertitel |
Herkunftsort |
| Autor/en |
Schriftart des Originals |
| Herausgeber |
Format der Quelle |
|
Verantwortlichkeit für Scannen |
| TEXTE: KLASSIFIZIERUNG |
Verantwortlichkeit für OCR |
| Textsorte |
Verantwortlichkeit für Korrektur |
| Sachgruppen |
Verantwortlichkeit für Aufbereitung |
| Ursprungsregion |
|
|
TEXTE: STATISTIK |
| TEXTE: RECHTE |
Seitenzahl gesamt |
| Verfügbarkeit |
|
|
|
|
|
|
|
Bei der Korpussuche wird derzeit folgende Auswahl dieser Metadaten angezeigt:
Autor Titel Herausgeber Verlag Jahr Datum Textsorte Art der Publikation ggf. URL
3. Textmenge
Die Größe der im Rahmen der Initiative erstellten, aufbereiteten und verwendeten Korpora beträgt im Oktober 2011 ca. 660 Millionen, wovon rund 70 Millionen aus Südtirol stammen. In der Bestandsaufnahme wurden halb-automatisch ca. 300000 Einträge gesammelt, die sich jeweils auf ein Werk eines Autors (Buch, Zeitungsartikel, etc.) beziehen (vgl. Abel et al., 2009).
4. Quellenangaben
Abel, Andrea; Anstein, Stefanie; Petrakis, Stefanos (2009): Die Initiative Korpus Südtirol. In: Linguistik online 38, 2/2009; Tagung 'Vielfalt in Sprachkorpora' Basel; http://www.linguistik-online.de/38_09/abelEtAl.html.
Abfalterer, Heidemaria (2007): Der Südtiroler Sonderwortschatz aus plurizentrischer Sicht. Lexikalisch-semantische Besonderheiten im Standarddeutsch Südtirols. Innsbruck University Press.
Kermes Hannah (2003): Off-line (and On-line) Text Analysis for Computational Lexicography. Dissertationsschrift, Universität Stuttgart.
Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings of International Conference on New Methods in Language Processing. www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger
|