Daten zu: Elektronische Laborbücher an der TU Darmstadt - Beispiel für ein strategisches Vorgehen - Dataset

Dataset

Daten zu: Elektronische Laborbücher an der TU Darmstadt - Beispiel für ein strategisches Vorgehen

Die Daten entstanden im Rahmen eines (Bibliotheks-)Referendar-Projekts zum Thema Elektronische Laborbücher (ELN). Die Umfrage "Elektronische Laborbücher im akademischen Umfeld - Eine Umfrage zur Nutzung an der Technischen Universität Darmstadt" soll die Verbreitung und typischen Nutzungsszenarien von ELNs untersuchen und das Thema für ein universitätsweites Forschungsdatenmanagement aufbereiten. Die Daten wurden außerdem für eine Masterarbeit (Library & Information Science) an der Humboldt-Universität zu Berlin verwendet. Der vollständige Fragebogen findet sich in deutscher und englischer Sprache in der Datei: fragebogen.pdf. Die Umfrage wurde durchgeführt mit Hilfe der Hochschuldidaktischen Arbeitsstelle unter Verwendung der Software EvaSys. Zeitraum der Datenerhebung:

08.03.2018 bis 02.04.2018

Zielgruppe:

Alle Mitglieder der natur- und ingenieurwissenschaftlichen Fachbereiche an der Technischen Universität (TU) Darmstadt. Insgesamt haben 460 Personen an der Umfrage teilgenommen.

Struktur der Rohdaten Die Ergebnisdaten der Umfrage wurden von der Hochschuldidaktischen Arbeitsstelle in sechs CSV-Dateien (zwecks Zwischenstandsanalyse) bereitgestellt:

sys_34-Befragung_zu_Elektronischen_Laborbüchern sys_34-Befragung_zu_ElektronischenLaborbüchern-_Studenten - Gruppe_1 sys_34-Befragung_zu_ElektronischenLaborbüchern-_Studenten - Gruppe_2 sys_34-Befragung_zu_ElektronischenLaborbüchern-_Studenten - Gruppe_3 sys_34-Befragung_zu_ElektronischenLaborbüchern-_Studenten - Gruppe_4 sys_34-Erster Datensatz mit Schreibfehlern (in einer der Fragen)

und dann zur Datei eln_data.csv zusammengeführt. Vorgehen unter Linux via: cat *.csv > eln_data.csv

Aufbereitung der Rohdaten Vor der Auswertung wurden in den Rohdaten folgende Veränderungen vorgenommen (eln_data.csv -> eln_data_mod.csv):

Zusammenführung von verschiedenen aber gleichwertigen Positionsbezeichnungen (z.B. Akademischer Rat zu Leitender Wissenschaftlicher Mitarbeiter) und Fachbezeichnungen für eine einheitliche Zusammenfassung universitärer Statusgruppen & Fachbereiche/Institute.

Die Spaltenbezeichnungen der Teilergebnisse wurden entfernt und für die leichtere Handhabbarkeit auf einen durchgehenden Index reduziert. (z.B. In welcher Stellung befinden Sie sich? -> 00001)

Streichung eines einzigen Nicht-ELN-Nutzers aus dem Fachbereich der Mathematik, weil es sich bei der Mathematik nicht um ein Fach mit starker Labor(buch)kultur handelt (und diese Person auch keins verwendete).

Die für die Umfrage verwendete Software EvaSys gibt die Rohdaten in Form von Zahlen aus, die mithilfe des Kodebuchs (codebook.pdf) wieder in die ausgeschriebenen Antworten (und Skalen) zurückübersetzt werden müssen. Diese Schlüssel-Werte Paare sind zudem für die maschinelle Verarbeitung in der Datei parm.yml festgehalten. Bei manchen Skalenantworten verzichtete die Software EvaSys (im Kodebuch) zudem auf die explizite Angabe der ursprünglichen Werte (Ursache unklar). In diesen Fällen folgt die Reihenfolge der Antworten trotzdem der in der Frage angegebenen Skala, z.B. wurden als Antwortmöglichkeit fünf Stufen von sehr herausfordernd bis unproblematisch angegeben, so übersetzt die Software das in die Werte 1 bis 5, wobei 1 = sehr herausfordernd und 5 = unproblematisch gilt. Verarbeitung der Daten Die Daten wurden mittels der Python-Skripte (Ordner code/): analysis.py und gfx.py ausgewertet und visualisiert. Wichtige Parameter zur Auswertung sind in den YAML-Dateien: jobs.yml und parm.yml als Schlüssel-Werte-Paare hinterlegt. Die Auswertung basiert ausschließlich auf der Datei eln_data_mod.csv und erfolgt immer komplett in einem Durchlauf. Das Skript analysis.py organisiert die Auswertungen anhand der Vorgaben in der Steuerungsdatei jobs.yml. Darin ist festgelegt welche Frage nach welchem Muster ausgewertet werden soll (z.B. mit oder ohne Skala, als Gesamtübersicht oder anhand bestimmter Kategorien gruppiert). Der Code für die die Erstellung aller Abbildungen (mit Plotly) findet sich in der Datei gfx.py. Die Verwaltung der Software-Packages und ihrer Abhängigkeiten für die verwendete Python-Version 3.7 erfolgte durch die Software Poetry. Für die Erzeugung einer passenden Entwicklungsumgebung finden sich die Dateien poetry.lock und pyproject.toml im Ordner code/. poetry shell poetry update

Ergebnisse Die aggregierten Daten im Ordner data/ folgen der folgenden Konvention:

Das Präfix gfx_ ist (nur) ein Hinweis darauf, dass sich diese Daten sinnvoll ohne weitere Bearbeitung plotten lassen.

Die Analyse(n) wurden anhand der folgenden Kernkategorien (z.B. ELN-Nutzer & Nicht-Nutzer) durchgeführt:

discipline = Fachliche Ausrichtung der Teilnehmer focus = Experimentelle bzw. theoretische Arbeitsweise user = Nutzer und Nicht-Nutzer von Elektronischen Laborbüchern position = Zugehörigkeit zu einer universitären Statusgruppe

Fragen, die eine Skala beinhalten wurden entsprechend einer passenden Umrechnungstabelle in parm.yml (prefix = scale_dict_) auf einen repräsentativen Wert umgerechnet. Diese Auswertungen wurden mit scale (bzw. no-scale) gekennzeichnet.

Die Summe aller Teilnehmerantworten auf eine bestimmte Kategorie wird in gesonderten Dateien ausgewiesen (und nicht als Extra-Spalte in der dazugehörigen Tabelle). Dies wird durch das Kürzel gesamt angedeutet. Bei der Auswertung im Modus no-scale ergibt sich (natürlich) für jede der untersuchten Kernkategorien (user, focus, position & discipline) ein sehr ähnliches Ergebnis. Nur ähnlich und nicht gleich (wie man es vielleicht auf den ersten Blick erwarten würde) - weil natürlich nicht jeder Teilnehmende alle Fragen vollständig beantwortet hat, d.h. die Gesamtzahl der Antworten nicht gleich ist.

Für die Auswertung anhand der Fachdisziplin wurde neben der im Fragebogen angebotenen Kategorien eine stärker zusammenfassende Aufteilung verwendet (Maschinenbau, Chemie, Physik, rest. Ing.-Wis., rest. Nat.-Wis.) Die Verwendung dieser Aufteilung wird anhand der Kürzel cluster-one bzw. no-cluster angegeben. Aufgrund einer Designschwäche erzeugt das Script automatisch auch entsprechende Dateien für die anderen Kernkategorien - was zu ungewollten und unsinnigen Dubletten führt. So besteht z.B. kein Unterschied zwischen der Datei gfx_cluster-one_scale_user_lab.csv und gfx_no-cluster_scale_user_lab.csv, weil hier die Arbeitsweise und nicht die fachliche Ausrichtung der Teilnehmer betrachtet wird. Glücklicherweise lassen sich Dubletten solch kleiner Dateien schnell mit entsprechenden Programmen (unter Linux z.B. rmlint) finden und bei Bedarf löschen. Die betrachtete Frage wird durch ein Stichwort am Ende des Dateinamen (und der Angabe des Index der Frage in eln_data_mod.csv in der Datei) vermerkt.

Stichwort Frage

access Wer hat alles Zugriff auf Ihr (elektronisches oder papiergebundenes) Laborbuch?

automation Schätzen Sie bitte den Automatisierungsgrad der Datendokumentation in Ihrem Arbeitsumfeld!

barriers Welche Aspekte sehen Sie als Herausforderung bei der Einführung eines elektronischen Laborbuchs?

central_eln Wäre ein von der TU Darmstadt zentral für alle angebotenes elektronisches Laborbuch für Sie interessant?

challenges Welche Aspekte haben sich Ihnen tatsächlich als Herausforderungen bei der Einführung eines elektronischen Laborbuchs gestellt?

comparison Sehen Sie bezüglich der folgenden Aspekte ein elektronisches (ELN) oder ein papiergebundenes Laborbuch (PLN) im Vorteil?

eln Arbeiten Sie zurzeit mit einem elektronischen Laborbuch (ELN), um Ihre Experimente und Projekte zu dokumentieren und/oder mit anderen zu teilen?

features Welche Funktionen würden Sie - neben der Dokumentation von Experimenten - von einem elektronischen Laborbuch erwarten?

financing Wären Sie bereit für ein ELN Geld auszugeben?

happyness Wie zufrieden sind Sie mit dem genutzten ELN?

lab Schätzen Sie bitte den Automatisierungsgrad & Standardisierungsgrad der Datendokumentation in Ihrem Arbeitsumfeld!

understanding Wer kann die Einträge in Ihrem Laborbuch nachvollziehen und gegebenenfalls die beschriebenen Experimente/Messungen wiederholen?

Nutzungsrechte und Lizenz Für den bestmöglichen Datenschutz wird ein Einblick in die Rohdaten nur auf Anfrage ermöglicht. Die aggregierten (und vollständig anonymisierten) Daten können hingegen nach CC-BY-4.0) genutzt werden. Weitere Zusammenstellungen können auf Anfrage an die Autoren bereitgestellt werden.

Identifier
Source	https://tudatalib.ulb.tu-darmstadt.de/handle/tudatalib/2344.2
Related Identifier	https://doi.org/10.17192/bfdm.2020.2.8282
Metadata Access	https://tudatalib.ulb.tu-darmstadt.de/oai/openairedata?verb=GetRecord&metadataPrefix=oai_datacite&identifier=oai:tudatalib.ulb.tu-darmstadt.de:tudatalib/2344.2

Provenance
Creator	Marutschke, Christoph; Jagusch, Gerald Wolfgang; Fuhrmans, Marc
Publisher	TU Darmstadt
Publication Year	2018
Rights	Creative Commons Attribution 4.0; info:eu-repo/semantics/openAccess
OpenAccess	true
Contact	https://tudatalib.ulb.tu-darmstadt.de/page/contact

Representation
Language	German
Resource Type	Dataset
Format	application/pdf; application/zip; image/png; application/octet-stream
Discipline	Other