Dieses Dokument gibt einige Empfehlungen für das Konvertieren älterer Bestände linguistischer Korpora (sog. „Legacy Data“) in eine moderne, nachhaltig (wieder)verwendbare Form. Wir haben selbst mehrere solcher Datenbestände bearbeitet1 , und sind uns dabei bewusst geworden, an wie vielen Stellen in diesem Prozess sich verschiedene Varianten von Murphy’s Gesetz („what can go wrong will go wrong“) manifestieren, zum Beispiel:
Niemand weiß etwas über die Originaldaten o Die Originaldaten sind höchstens halb so gut (konsistent, umfangreich, …), wie ihr Urheber glaubt
Alles dauert mindestens doppelt so lange wie geplant
Wenn Hilfskräfte gut eingearbeitet sind, kündigen sie
Wenn alles fertig ist, wird es versehentlich gelöscht
Wir haben diese Empfehlungen formuliert, um anderen, die ähnliche Aufgaben bearbeiten wollen, den mühsamen Lernprozess zumindest teilweise zu ersparen. Die einzelnen Abschnitte dieses Leitfadens sind in der Reihenfolge angeordnet, die wir nach unseren bisherigen Erfahrungen für die richtige halten:
Als allererstes sollten die Modalitäten für eine Publikation der Daten festgelegt werden.
Anschließend sollte eine Inventur der vorhandenen Daten gemacht werden.
Darauf aufbauend kann die Konvertierungsarbeit geplant …
… und schließlich, in mehreren verschiedenen Arbeitspaketen durchgeführt werden.