3. Lehreinheit

From DHVLab

Revision as of 10:52, 9 March 2017 by Jschulz (talk | contribs)

Unser Kursziel ist es, in gedruckter Form vorliegende Daten in strukturierter Form zu erfassen und für die spätere Weiterverarbeitung in eine Datenbank einzupflegen. Eine Möglichkeit wäre es, die entsprechenden Buchseiten mit einem OCR-Programm zu erfassen und die damit gewonnenen Daten im Anschluss aufzubereiten. Die Einführung in die Benutzung einer OCR-Software war jedoch im Rahmen dieses Kurses nicht möglich, daher wurden die Daten händisch mit einem Tabellenkalkulationsprogramm erfasst. Ob händisch oder maschinell - die Aufgabe der anschließenden Datenstrukturierung bleibt unverändert.

Forschungsdaten

"Alle Arten von Information können auf Tabellen heruntergebrochen werden"

Bevor wir uns der Datenaufnahme zuwenden, seien an dieser Stelle ein paar grundlegende Gedanken zu unserem Gegenstand, den Forschungsdaten, angeführt.

Forschungsdaten

  • sind all diejenigen Daten, die im Laufe eines Forschungsprozesses anfallen und für die Begründung eines Forschungsergebnisses notwendig sind.
  • stellen den Ausgangspunkt jeder wissenschaftlichen Arbeit dar
  • sollten in einem sinnvollen Datenformat gehalten werden, damit eine softwareunabhängige Weiterverarbeitung möglich ist (z. B. CSV)
  • werden in der Regel mit einem Tabellenkalkulationsprogramm wie Excel/Calc strukturiert erfasst; die Datenerfassung ist auch unmittelbar über eine Datenbank möglich, jedoch bietet Calc hierfür eine intuitive, graphische Benutzeroberfläche, weshalb sich das Programm anbietet
  • sollten von Beginn an nach ausgewählten, nachvollziehbaren Kriterien strukturiert werden, um eine spätere, mit größerem Arbeitsaufwand verbundene Überarbeitung zu vermeiden

(// Hinweise auf Forschungs-Lit. ergänzen)

Naiver Umgang mit Forschungsdaten: Leider finden sich gerade in den Geisteswissenschaften bis heute zahlreiche Beispiele für einen 'naiven' Umgang mit Daten, d.h. ein werkzeugzentriertes Arbeiten überwiegt ein datenorientiertes Denken. Beispielsweise werden Bibliographien in Hausarbeiten zumeist in einer Word-Datei in Textform gesammelt, seltener in einem hierfür geeigneten Literaturverwaltungsprogramm wie Zotero oder Citavi. Dies bringt folgende negative Begleiterscheinungen mit sich:

  • mangelnde Nachnutzbarkeit der Daten, da nicht auf die Datenstruktur zugeschnitten
  • maschinelle Weiterverarbeitung der Daten erschwert oder unmöglich
  • erschwerte Einbindung in bestehende digitale Infrastrukturen (Datenrepositorien)
  • geringe Transparenz der Forschung


Datenaufnahme mit Calc

→ Für weiterführende Informationen sei auf die Einführung in die Datenaufnahme mit Calc verwiesen.

"Wer Calc kann, kann auch Excel" Die Datenaufnahme erfolgt mit i.d.R. mit einem Tabellenkalkulationsprogramm wie Calc oder Excel. Calc, die kostenlose Alternative zu Excel, steht seinem kostenpflichtigen Pendant in der Funktionalität ebenbürtig gegenüber. Es findet im DHVLab Anwendung, da sich das Projekt für den Einsatz non-proprietärer Software ausspricht (Stichwort: Unabhängigkeit bestimmter Herstellerformate). → Öffnen Sie Calc im Virtuellen Desktop wie folgt: Startbutton -> Anwendungen -> Büroprogramme → In Calc können Dateien als ods- (Open Document Spreadsheet) oder xls-Format abgespeichert werden; das Öffnen mit Excel (und umgekehrt) ist problemlos möglich. → Für den späteren Import der Daten in die Datenbank bietet sich die Verwendung des Formats CSV (Comma Separated Values) an. Wichtig: Für den Import kann immer nur EINE Tabelle einbezogen werden, d.h. es muss für jede Tabelle eine neue CSV-Datei angelegt werden!

Bereits vor der Datenaufnahme in Calc/Excel ist es unabdingbar, dass man sich Gedanken zum Datenschema macht. Wie soll die spätere Datenbank strukturiert sein? Welche Erkenntnisinteressen verfolge ich mit den aufzunehmenden Forschungsdaten? (= reflektiertes Arbeiten)

  • Der wichtigste Grundsatz bei der Strukturierung von Forschungsdaten lautet: Exaktes Arbeiten!
  • Nur, wenn Daten sauber strukturiert abgelegt werden, können sie später maschinell verarbeitet werden.
  • Die Datenaufnahme und -strukturierung nimmt etwa 80% der Zeit ein! Organisation ist alles in einem Datenbank-Projekt.