XML als Beschreibungssprache für Textcorpora

XML als Beschreibungssprache für Textcorpora

4.11 - 1251 ratings - Source

Seitdem es elektronisch gespeicherte Daten gibt, existiert das Problem der unterschiedlichen Datenformate: Die Frage nach der Art und Weise, wie die Daten gespeichert werden. Programme unterschiedlicher Hersteller, die alle einem Achnlichen Zweck dienen, benutzen dennoch zueinander nicht kompatible Datenformate. So kann es vorkommen, dass eine Textverarbeitung die Dokumente einer anderen Textverarbeitung nicht oder nur mehr schlecht als recht lesen kann. A„ltere Dokumente kApnnen nicht mehr verarbeitet werden, wenn es die sie erzeugenden Programme nicht mehr gibt oder diese auf aktuellen Computer-Plattformen nicht mehr laufen. VerschAcrfend kommt hinzu, dass auch die verwendeten Speichermedien einer rasanten Entwicklung unterliegen a€“ heute noch auf dem aktuellsten Stand der Technik, in wenigen Jahren schon wieder veraltet und mit den dann gAcngigen GerActen nicht mehr lesbar. Liesse sich letzteres Problem noch durch das stAcndige Umkopieren auf neue DatentrAcger lApsen, so bleibt doch weiterhin das Problem der verschiedenen Datenformate bestehen. In der Quantitativen Linguistik werden grosse DatenbestAcnde in Form von Text-Corpora benAptigt. Diese liegen zumeist als ASCII-Dateien1 vor: In dieser Form sind sie zumindest fA¼r Menschen direkt lesbar. Allerdings enthalten die Corpora unterschiedlichste linguistische Informationen und sind dementsprechend unterschiedlich strukturiert. In der Praxis bedeutet dies dass Programme, Schnittstellen etc., die fA¼r das eine Corpus erstellt wurden, nur mit erheblichen Anpassungs- Aufwand auf andere Corpora angewandt werden kApnnen. In dieser Arbeit soll versucht werden aufzuzeigen, dass es eine Alternative gibt: Mittels der a€žExtensible Markup Languagea€œ, kurz XML, liesse sich ein einheitlicher Workflow fA¼r die verschiedensten Corpora erstellen.1.3.1 Java Um die bereits kompilierten Java-Klassen der beschriebenen Programme auszufA¼hren, genA¼gt ein ... 3 http://www.java.com:80/en/download/ manual.jsp 4 http://java.sun.com/j2se/1.5.0/download.jsp 5 http://www.cpan.org 6 anbsp;...


Title:XML als Beschreibungssprache für Textcorpora
Author:Thomas Zastrow
Publisher:GRIN Verlag - 2005-03-10
ISBN-13:

Continue

You Must CONTINUE and create a free account to access unlimited downloads & streaming