Leitfaden für die Konvertierung von Legacy Data

DOI

Dieses Dokument gibt einige Empfehlungen für das Konvertieren älterer Bestände linguistischer Korpora (sog. „Legacy Data“) in eine moderne, nachhaltig (wieder)verwendbare Form. Wir haben selbst mehrere solcher Datenbestände bearbeitet1 , und sind uns dabei bewusst geworden, an wie vielen Stellen in diesem Prozess sich verschiedene Varianten von Murphy’s Gesetz („what can go wrong will go wrong“) manifestieren, zum Beispiel:

Niemand weiß etwas über die Originaldaten o Die Originaldaten sind höchstens halb so gut (konsistent, umfangreich, …), wie ihr Urheber glaubt
Alles dauert mindestens doppelt so lange wie geplant
Wenn Hilfskräfte gut eingearbeitet sind, kündigen sie
Wenn alles fertig ist, wird es versehentlich gelöscht

Wir haben diese Empfehlungen formuliert, um anderen, die ähnliche Aufgaben bearbeiten wollen, den mühsamen Lernprozess zumindest teilweise zu ersparen. Die einzelnen Abschnitte dieses Leitfadens sind in der Reihenfolge angeordnet, die wir nach unseren bisherigen Erfahrungen für die richtige halten:

Als allererstes sollten die Modalitäten für eine Publikation der Daten festgelegt werden.
Anschließend sollte eine Inventur der vorhandenen Daten gemacht werden.
Darauf aufbauend kann die Konvertierungsarbeit geplant …
… und schließlich, in mehreren verschiedenen Arbeitspaketen durchgeführt werden.
Identifier
DOI https://doi.org/10.25592/uhhfdm.9032
Related Identifier https://doi.org/10.25592/uhhfdm.9031
Metadata Access https://www.fdr.uni-hamburg.de/oai2d?verb=GetRecord&metadataPrefix=oai_datacite&identifier=oai:fdr.uni-hamburg.de:9032
Provenance
Creator Schmidt, Thomas ORCID logo
Publisher Universität Hamburg
Publication Year 2021
Rights Creative Commons Attribution 4.0 International; Open Access; https://creativecommons.org/licenses/by/4.0/legalcode; info:eu-repo/semantics/openAccess
OpenAccess true
Representation
Language German
Resource Type Software documentation; Text
Version 1.0
Discipline Other