Pivot-Tabellen: interaktive Tabellen zur Analyse von Daten

From DHVLab

Revision as of 14:39, 14 September 2016 by Jschulz (talk | contribs) (Anwendungsbeispiel)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Tabellenkalkulationsprogramme wie Calc sind vielseitig einsetzbar. Wir haben einerseits seine Funktion zur strukturierten Aufnahme von Forschungsdaten für die anschließende Weiterverwendung in Datenbanken oder Statistiksoftware Link ergänzen, andererseits seine Funktionsweise bei der alltäglichen Verwaltung oder projektbezogenen Verarbeitung von Datenmengen kennengelernt Link ergänzen.

Pivot Tabellen

Neben diesen Einsatzgebieten kann man größere Forschungsdatensammlungen auch direkt in Calc auswerten. Hierzu eignet sich die Verwendung von Pivot-Tabellen im Besonderen, d.h. interaktive Tabellen zur

  • Auswertung, Gruppierung und Aggregation von Daten
  • Neuordnung und Analyse von Daten
  • bequemen und wirkungsvollen Analyse von großen Datenbeständen auf beliebige Kriterien hin.
Wichtig: Calc bietet viele Möglichkeiten der Gestaltung, Formatierung etc. Dies ist für den Einsatz als Bürosoftware sinnvoll und schön. Bei der Verwendung des Programms zur Datenaufnahme oder –analyse sollte auf ihren Einsatz möglichst verzichtet werden, da Pivot wie auch externe Programme Gefahr laufen, diese fehlerhaft zu interpretieren. Devise: Keep it simple!

Pivot-Tabellen besitzen den Vorteil, dass auf ihrer Datengrundlage Berechnungen durchgeführt werden können, ohne dabei den Ausgangsdatenbestand zu verändern. Die Ursprungsdaten bleiben stets erhalten.
Grundvoraussetzung ist eine umfangreiche, aussagekräftige und gut strukturierte Datensammlung. Daher gilt es sich vorab zu überlegen:

  • Welche Daten werden für die Beantwortung meiner Fragestellung benötigt?
  • Welche Fragen können auf welche Weise in einer Pivot-Tabelle beantwortet werden?
  • Welche Beziehungen zwischen Daten sollen ermittelt werden?

Wir werden uns im Folgenden der Arbeit mit Pivot-Tabellen anhand der Künstlernamen-Datei (artists.csv[A 1]) des Museum of Modern Art (MoMa) nähern. Diese umfasst 14.770 Einträge. Die Datei wurde aus der MySQL-Datenbank heruntergeladen; anschließend wurden für die folgenden Übungszwecke unnötige Spalten entfernt. Die Tabelle umfasst folgende Spalten:

  • Name
  • Nationalität
  • Geschlecht
  • Geburts- und
  • Sterbejahr

Glätten des Datenbestands

Da bei uns allein die Künstler im Fokus des Interesses stehen, gilt es den Datensatz zunächst noch auf Sinnhaftigkeit hin zu überprüfen. Dabei fällt beim Durchscrollen folgendes auf:

  • Einträge, die ein Geburtsdatum angeben, welches unwahrscheinlich modern ist (z.B. 2000)
  • Einträge, die weder Nationalität noch Geschlecht verzeichnen (jeweils NULL)

Bei der Nationalität ist Nationality unknown von NULL zu unterscheiden. Während in ersterem Fall die Nationalität nicht bekannt ist, wurde bei NULL kein Eintrag in der Datenbank vorgenommen; es könnte also sein, dass die Nationalität zwar ermittelbar ist, jedoch (noch) nicht eingetragen wurde.
Filtern wir zunächst einmal alle Einträge heraus, die weder einen Eintrag bei Geschlecht noch bei Nationalität besitzen:
Reiter "Daten" → Filter → Standardfilter
Feldname "Nationalität" – Bedingung "=" – Wert "NULL"
UND
Feldname "Geschlecht" – Bedingung "=" – Wert "NULL"

  1. Wählen Sie in der Statusleiste Anzahl aus, um zu erfahren, wie viele Datensätze betroffen sind: 3593
  2. Löschen Sie alle betroffenen Einträge: Markieren Sie zunächst alle Spalten und gehen Sie auf Bearbeiten → Inhalte löschen und bestätigen Sie mit OK[A 2].
  3. Markieren Sie anschließend wiederum Spalte A-E und heben Sie die Filterung auf:
    Daten → Filter → Standardfilter → Feldname "keiner".
  4. Es werden nun alle Datensätze angezeigt, die nicht von der Löschung betroffen waren.
  5. Geblieben sind die Leerzeilen, die im nächsten Schritt zu tilgen sind: Markieren Sie abermals die Spalten und gehen Sie in den Standardfilter. Wählen Sie dort bei Spalte A (oder einer beliebigen anderen Spalte) bei "Wert" aus, dass dieser "Nicht leer" ist. Nun werden alle entsprechenden Zeilen angezeigt; die leeren Zeilen sind zu diesem Zeitpunkt zwar nicht sichtbar, jedoch noch vorhanden. Um diese endgültig zu tilgen reicht es aus, die aktuelle Auswahl zu kopieren (Strg C) und in einem neuen Tabellenblatt wieder einzufügen (Strg V).

Selbiges wiederholen wir nun für die Einträge, die verdächtig hohes "Geburtsjahr" aufweisen; dieses ist häufig ein Indiz dafür, dass es sich um eine Institution handelt.

  1. Filtern wir also wie gewohnt, diesmal nach "Geburtsjahr" größer als "1989". In der Tat handelt es sich bei dem ausgegebenen Ergebnis fast ausschließlich um Firmen. Die qualitative Sichtung des Ergebnisses ergibt: Die wenigen (sehr jungen) Künstler, bei denen es sich um reelle Personen handelt, sind erkennbar an der Geschlechtsangabe.
  2. Löschen wir nun alle Einträge bis auf die eben genannten Personen.
  3. Markieren wir anschließend wiederum alle Spalten und heben die Filterung auf.
  4. Löschen wir wie eben gelernt erneut die Leerzeilen durch Filtern und Kopieren in ein neues Tabellenblatt.

Unsere Datensammlung umfasst nun 12.902 Einträge. Passen wir die neue Tabelle an, in dem wir

  • die Spaltenbreite auf die Länge des Inhalts aufziehen
  • über der ersten Datenzeile wiederum die Beschriftung einfügen: Name, Nationalität, Geschlecht, Geburtsjahr, Sterbejahr.
  • unsere Tabelle im Reiter unten links in "artists" umbenennen.

Erstellen der Pivot-Tabelle

Nun haben wir den Datensatz für unsere Zwecke aufbereitet und können eine Pivot-Tabelle erstellen[A 3].

  1. Markieren Sie zunächst die Spalten, die sie in Ihre Pivot-Tabelle einbeziehen möchten.
  2. Klicken Sie dann auf Daten → Pivot-Tabelle → Erstellen.
  3. Es öffnet sich das Menü "Pivot-Tabellen Layout".
    Rechts sehen Sie die verfügbaren Felder aus Ihrer Auswahl.
    Links finden sich einzelne Aktionsbereiche, denen Sie nun die einzelnen Spalten zuordnen können.
    In der Regel sollten Sie mindestens ein Zeilenfeld und ein Datenfeld befüllen. Dies erfolgt indem Sie per Drag&Drop eines der verfügbaren Felder einem Bereich zuordnen (Das Löschen erfolgt durch Anklicken und Drücken der Entfernen-Taste).
  4. Sobald ein Feld zugeordnet wurde, können Sie mit einem Doppelklick in das entsprechende Feld das Kontextmenü öffnen. Dieses hält mehrere grundlegende statistische Auswertungsmöglichkeiten bereit. Indem man zusätzlich ein Spaltenfeld mit einbezieht und dadurch eine sogenannte Kreuztabelle erstellt, erhält die Pivot-Tabelle eine größere Aussagekraft.

Abbildung ergänzen

Anwendungsbeispiel

Erkenntnisinteresse: Wir möchten ermitteln, wann – geordnet nach Jahren – im 19. Jahrhundert wie viele der Künstler, getrennt nach Geschlecht, geboren wurden.

  1. Hierzu ziehen wir "Geburtsjahr" in das Feld Zeilenfelder, da wir unsere Untersuchung nach den entsprechenden Jahren ausrichten werden.
  2. Ebenfalls ziehen wir "Geburtsjahr" in das Feld Datenfelder.
  3. Da wir die Anzahl pro Jahr ermitteln möchten, doppelklicken wir und es öffnet sich das Kontextmenü. Dort wählen wir "Anzahl" aus und bestätigen mit OK.
  4. Da wir das Ergebnis nach Geschlecht aufschlüsseln möchten, ziehen wir nun noch "Geschlecht" in das Feld Spaltenfelder.
  5. Wir bestätigen die Pivot-Tabelle durch einen Klick auf OK und sie wird in einem neuen Tabellenblatt nach unseren Vorgaben erstellt.
  6. Die soeben getätigten Vorgaben können jederzeit durch einen Rechtsklick auf die angegrauten Zellen abgeändert werden.

Um nun aus der Übersicht diejenigen Fälle auszuwählen, die dem 19. Jahrhundert entstammen, klicken wir mit der rechten Maustaste auf das Feld Geburtsjahr und anschließend auf "Filter". Im sich öffnenden Kontextmenü können wir die Filterkriterien bestimmen:
Feldname "Geburtsjahr" – Bedingung ">=" – Wert "1800"
UND
Feldname "Geburtsjahr" – Bedingung "<" – Wert "1901"

Zur Visualisierung des Ergebnisses bietet sich ein Liniendiagramm an. Wie wir im Abschnitt Visualisierung mit Calc kennengelernt haben

  • klicken wir auf "Diagramm erstellen"
  • wählen den Diagrammtyp "Liniendiagramm" aus
  • wählen anschließend den Datenbereich aus (hier: $‘Pivot-Tabelle_artists_1‘.$A$2:$D$102)
  • danach die Datenreihen. Hier gilt es zu berücksichtigen: Wählen Sie für beide Geschlechter (und NULL) den entsprechenden Datenbereich aus (Female: …$B$3:$B$102 ∫ Male: ……$C$3:$C$102 ∫ NULL: …$D$3:$D$102). Die Gesamtergebnisse werden nicht berücksichtigt.

Abbildung ergänzen
Wie wir sehen, eignet sich eine Pivot-Tabelle und die zugehörige Visualisierung gut zur Darstellung von nach bestimmten Gesichtspunkten gefilterten Datenmengen.

Andere mögliche Fragestellungen wäre beispielsweise:

  • In welchen Jahren hat Dürer wie viele Werke erstellt?
  • Welchen Anteil besitzen Dürers Werke am Bestand von …?
  • In welchem Jahr wurden wie viele Objekte von einem Museum angekauft? Von wann stammen diese Objekte gleichzeitig?



Zurück zu Visualisierung mit Calc ⇐⇒ Weiter zu Einführung (Calc als Medium der Datenaufnahme)

Anmerkungen

  1. Beim Öffnen gelangen Sie zunächst in einen Textimport-Assistent. Hier brauchen Sie keine Änderungen vorzunehmen, bestätigen Sie einfach mit OK.
  2. Bei den betroffenen Fällen handelt es sich entweder um Institutionen oder um ungenaue Einträge von Personen, bei denen teilweise die Nationalität dem Namen hinzugefügt wurde. Normalerweise wäre es nun erforderlich, eine weitere Glättung des Datenbestandes durchzuführen und die ungenau bezeichneten Personen von den Institutionen zu trennen. Darauf wird in diesem Fall aus pragmatischen Gründen verzichtet.
  3. Natürlich könnte man die Daten nun weiter glätten – beispielsweise sind Eintrag 3 und 5 offenkundig Firmen und damit irrelevant, Eintrag 2 ist zumindest zweifelhaft –, was in unserer Übung aber nicht notwendig ist. Hier zeigt sich jedoch, wie wichtig eine möglichst umfassende Auszeichnung der Daten ist; in diesem Fall wäre es zum Beispiel sinnvoll gewesen, in einer separaten Spalte natürliche Personen und Institutionen entsprechend zu kennzeichnen.