3. Lehreinheit

From DHVLab

Unser Kursziel ist es, in gedruckter Form vorliegende Daten in strukturierter Form zu erfassen und für die spätere Weiterverarbeitung in eine Datenbank einzupflegen. Eine Möglichkeit wäre es, die entsprechenden Buchseiten mit einem OCR-Programm zu erfassen und die damit gewonnenen Daten im Anschluss aufzubereiten. Die Einführung in die Benutzung einer OCR-Software war jedoch im Rahmen dieses Kurses nicht möglich, daher wurden die Daten händisch mit einem Tabellenkalkulationsprogramm erfasst. Ob händisch oder maschinell - die Aufgabe der anschließenden Datenstrukturierung bleibt unverändert.

Forschungsdaten

"Alle Arten von Information können auf Tabellen heruntergebrochen werden"

Bevor wir uns der Datenaufnahme zuwenden, seien an dieser Stelle ein paar grundlegende Gedanken zu unserem Gegenstand, den Forschungsdaten, angeführt.

Forschungsdaten

  • sind all diejenigen Daten, die im Laufe eines Forschungsprozesses anfallen und für die Begründung eines Forschungsergebnisses notwendig sind.
  • stellen den Ausgangspunkt jeder wissenschaftlichen Arbeit dar
  • sollten in einem sinnvollen Datenformat gehalten werden, damit eine softwareunabhängige Weiterverarbeitung möglich ist (z. B. CSV)
  • werden in der Regel mit einem Tabellenkalkulationsprogramm wie Excel/Calc strukturiert erfasst; die Datenerfassung ist auch unmittelbar über eine Datenbank möglich, jedoch bietet Calc hierfür eine intuitive, graphische Benutzeroberfläche, weshalb sich das Programm anbietet
  • sollten von Beginn an nach ausgewählten, nachvollziehbaren Kriterien strukturiert werden, um eine spätere, mit größerem Arbeitsaufwand verbundene Überarbeitung zu vermeiden[A 1]

(// Hinweise auf Forschungs-Lit. ergänzen)

Naiver Umgang mit Forschungsdaten: Leider finden sich gerade in den Geisteswissenschaften bis heute zahlreiche Beispiele für einen 'naiven' Umgang mit Daten, d.h. ein werkzeugzentriertes Arbeiten überwiegt ein datenorientiertes Denken. Beispielsweise werden Bibliographien in Hausarbeiten zumeist in einer Word-Datei in Textform gesammelt, seltener in einem hierfür geeigneten Literaturverwaltungsprogramm wie Zotero oder Citavi. Dies bringt folgende negative Begleiterscheinungen mit sich:

  • mangelnde Nachnutzbarkeit der Daten, da nicht auf die Datenstruktur zugeschnitten
  • maschinelle Weiterverarbeitung der Daten erschwert oder unmöglich
  • erschwerte Einbindung in bestehende digitale Infrastrukturen (Datenrepositorien)
  • geringe Transparenz der Forschung

Datenaufnahme mit Calc

→ Für weiterführende Informationen sei auf die Einführung in die Datenaufnahme mit Calc verwiesen.

"Wer Calc kann, kann auch Excel" Die Datenaufnahme erfolgt mit i.d.R. mit einem Tabellenkalkulationsprogramm wie Calc oder Excel. Calc, die kostenlose Alternative zu Excel, steht seinem kostenpflichtigen Pendant in der Funktionalität ebenbürtig gegenüber. Es findet im DHVLab Anwendung, da sich das Projekt für den Einsatz non-proprietärer Software ausspricht (Stichwort: Unabhängigkeit bestimmter Herstellerformate). → Öffnen Sie Calc im Virtuellen Desktop wie folgt: Startbutton -> Anwendungen -> Büroprogramme → In Calc können Dateien als ods- (Open Document Spreadsheet) oder xls-Format abgespeichert werden; das Öffnen mit Excel (und umgekehrt) ist problemlos möglich. → Für den späteren Import der Daten in die Datenbank bietet sich die Verwendung des Formats CSV (Comma Separated Values) an. Wichtig: Für den Import kann immer nur EINE Tabelle einbezogen werden, d.h. es muss für jede Tabelle eine neue CSV-Datei angelegt werden!

Bereits vor der Datenaufnahme in Calc/Excel ist es unabdingbar, dass man sich Gedanken zum Datenschema macht. Wie soll die spätere Datenbank strukturiert sein? Welche Erkenntnisinteressen verfolge ich mit den aufzunehmenden Forschungsdaten? (= reflektiertes Arbeiten)

  • Der wichtigste Grundsatz bei der Strukturierung von Forschungsdaten lautet: Exaktes Arbeiten!
  • Nur, wenn Daten sauber strukturiert abgelegt werden, können sie später maschinell verarbeitet werden.
  • Thesen können messbar gemacht werden (= Operationalisieren) → Unterschiedliche Fragestellungen führen zu unterschiedlichen Datenmodellen: Auswahl treffen - Untersuchungsform wählen
  • Die Datenaufnahme und -strukturierung nimmt etwa 80% der Zeit ein! Organisation ist alles in einem Datenbank-Projekt.



(//Beispielseite aus Lauro mit Unsicherheiten einfügen)
Die erarbeitete Liste der Begräbnisstätten der Habsburger stellt eine große Bereicherung für die wissenschaftliche Beschäftigung mit der Geschichte der habsburgischen Dynastie dar. Diese wissenschaftliche Leistung soll in keiner Weise in Abrede gestellt werden. Über die, dem Medium "gedrucktes Buch" geschuldeten Nachteile der Auflistung wurde bereits weiter oben mit den Teilnehmern diskutiert. Hinzu kommen kleinere inhaltliche Inkonsistenzen bzw. Unsicherheiten, bei deren Erfassung in Form einer Datenbank sich die Frage nach der Strukturierung im Besonderen stellt. Die Diskussion mit den Teilnehmern führte u.a. zu folgenden Beobachtungen:

  • Wie modelliert man Unsicherheiten? (z. B. circa-Angaben, "um ...", "(?)"; z.B. "Rudolf, ?-vor 1424", "Richenza, um 1050")
  • Welche Angaben werden bei mehreren Möglichkeiten verwendet? (z.B. "Sticna (Sittich)")
  • Uneinheitliche Angaben erschweren eine quantitative Analyse (z.B. "Kloster Muri/Aargau" vs. "Kloster Muri/Schweiz"; "Basilika Ste.-Denis/bei Paris" vs. Ste.Denise/Paris")
  • Selbiges gilt für unvollständige Angaben (z.B. "Porto Alegre" - ohne Angabe der Grabstätte oder deren Ungewissheit)
  • Wie verfährt man mit der Tatsache, dass mehrere Personen in derselben Grabstätte liegen?
  • Wie verfährt man mit der Tatsache, dass Personen an mehreren Orten begraben liegen? (Herz, Eingeweide, Körper, z. B. "Kapuzinergruft/Wien", Int.-U.: Herzogsgruft St. Stephan/Wien, H.-U.: Krypta im Dom/Olmütz")

→ Für uns Geisteswissenschaftler birgt dieses strukturierte Arbeiten mit Daten viele Vorteile, u.a. dass man sich mit allen Problemfällen auseinandersetzen muss und verbindliche Kriterien mit einhergehender Entscheidungsfindung geschaffen werden müssen.
→ Dabei gilt stets: Auswahlkriterien gut dokumentieren. Inhaltliche Entscheidungen müssen als solche erkennbar sein. Ihre Dokumentation ist wichtig, da das Wissen darüber ansonsten (z. B. bei einem Personalwechsel) schnell verloren gehen kann.
→ Neben der Dokumentation der Datenstruktur muss auch die einbezogene Datenbasis genau beschrieben werden, um signifikante und vertrauensvolle Werte anbieten zu können. (z. B.: "Von den in der Datenbank erfassten Personen werden nur 80% ausgegeben, da bei den anderen 20% keine Geodaten ermittelt werden konnten.")

Übungsaufgabe

Ein kleines Übungsbeispiel zum Einstieg:

  • gegeben ist folgende Calc-Datei, in der sich einige Personendatensätze[A 2] befinden: (// Übungsdatei einbinden)
  • Machen Sie sich Gedanken darüber, welche Informationen aus Ihrer Sicht besser strukturiert werden sollten und bringen Sie die Datei in eine saubere Form.



Lösungsvorschläge

  • Entfernen Sie gestalterische Elemente, wie die Hervorherbung der Überschriftzeile
  • Vereinheitlichen Sie die Überschriftenzeile: Es wird durchgängige Kleinschreibung empfohlen wie auch die Verwendung von talking names (GB → geburtsdatum), Leerzeichen sollten vermieden werden (Name der Person → personenname), ebenso Umlaute (Begräbnisstätte → begraebnisstaette)
  • Personenname: Vereinheitlichung der Angabe römisch-deutsch → röm.-dt.
  • Geschlecht: Kürzel "m" und "w" sinnvoll, jedoch einheitlich (ein Fall mit "weiblich" → "w")
  • Unsicherheiten beim Sterbedatum: für die mit (?) gekennzeichnete Unsicherheit bietet es sich an, eine eigene Spalte zu erstellen, in der das Merkmal Unsicherheit abgefragt wird (1 = ja, 0 = nein). Eine weitere Spalte erscheint sinnvoll für unsichere Fälle, in denen es eine alternative Angabe gibt (1603, 1604)
  • Begräbnisstätte: Hier gibt es gleich mehrere kleinere Ungenauigkeiten zu beheben: In einem Fall ist auch das Land mit angegeben; diese Angabe sollte in einer eigenen Spalte eingegeben werden, muss dann aber auch für alle anderen Orte nachgetragen werden. Vereinheitlicht werden muss auch die Ortsangabe: Komma anstelle Semikolon, Komma anstelle Klammern, Wien ergänzen bei Kapuzinergruft.
  • Geokoordinaten: Angabe "(siehe oben)" ersetzen durch die entsprechenden Koordinaten
  • Nach diesen ersten Aufräumarbeiten gilt es nun, die Informationen einiger Spalten noch zu trennen. So erscheint es sinnvoll, die Rolle der Personen in einer eigenen Spalte getrennt vom Namen zu sammeln, ebenso den Ortsnamen von der Grabstätte zu trennen und auch die Geokoordinaten auf zwei Felder aufzuspalten. Dadurch werden die Informationen flexibel einsetzbar und für quantifizierende Auswertungen brauchbar. Hierfür gibt es zwei Möglichkeiten:
    • 1) Einsatz einer Funktion: Wir fügen zunächst zwei leere Spalten rechts neben der Spalte "personenname" ein. In der ersten neuen Spalte möchten wir nun nur den Personennamen einfügen. Wir klicken in das Feld B2 und geben die benötigte Funktion ein: =LINKS(A2;FINDEN(",";A2)-1) (d.h.: "Gebe den Text der Zelle A2 von links beginnend aus, bis ein Komma gefunden wird, breche dort ab und entferne jeweils das letzte Zeichen, also das Komma."). Über das schwarze Quadrat rechts unten in der Zelle lässt sich die Funktion über die darunter liegenden Zellen ziehen und somit im Masseverfahren anwenden.
    • In ähnlicher Weise verfahren wir für den Titel der Person: Wir klicken in das Feld C2 und geben die benötigte Funktion ein: =RECHTS(A2;LÄNGE(A2)-FINDEN(",";A2)) (d.h.: "Gebe den Text der Zelle A2 aus, beginnend jedoch erst ab dem Komma."). Wir ziehen die Funktion wie gehabt über die darunter liegenden Zellen auf.
    • Wenn wir nun auf die neu befüllten Zellen klicken, wird die eingegebene Formel angezeigt. Wenn wir den Inhalt von den Formeln trennen möchten, markieren wir die betroffenen Zellen → Rechtsklick → "Nur Inhalte einfügen" → mit OK bestätigen.
    • Abschließend löschen wir die Ausgangsspalte "personenname" und ergänzen entsprechende Titel ("personenname", "titel") bei den neu hinzugefügten Spalten.
    • 2) Die zweite (und in diesem Fall bequemere) Möglichkeit, um Inhalte in Zellen zu trennen, wenden wir auf die Spalte "begraebnisstaette" an: Zunächst fügen wir rechts neben der Spalte eine neue Spalte ein. Wir markieren die Spalte "begraebnisstaette" durch Klick auf den Spaltenkopf → Menü "Daten" → "Text in Spalten" → Trennoption "Komma" → mit OK bestätigen. Abschließend vergeben wir noch den neuen Spaltennamen "ort". Ebenso verfahren wir zu guter Letzt bei der Spalte "geokoordinaten" und ändern bzw. vergeben die Spaltennamen "geokoordinate1" und "geokoordinate2".

Anmerkungen

  1. Vgl. beispielsweise die Bemühungen von Europeana für die Schaffung verbindlicher Qualitätsstandards.
  2. Angelehnt an Lauro. Die Daten wurden für Übungszwecke bewusst umstrukturiert. Der Aspekt der Normalisierung wird in diesem Beispiel nur am Rande angesprochen.