Pivot-Tabellen: interaktive Tabellen zur Analyse von Daten
From DHVLab
Tabellenkalkulationsprogramme wie Calc sind vielseitig einsetzbar. Wir haben einerseits seine Funktion zur strukturierten Aufnahme von Forschungsdaten für die anschließende Weiterverwendung in Datenbanken oder Statistiksoftware Link ergänzen
, andererseits seine Funktionsweise bei der alltäglichen Verwaltung oder projektbezogenen Verarbeitung von Datenmengen kennengelernt Link ergänzen
.
Contents
Pivot Tabellen
Neben diesen Einsatzgebieten kann man größere Forschungsdatensammlungen auch direkt in Calc auswerten. Hierzu eignet sich die Verwendung von Pivot-Tabellen im Besonderen, d.h. interaktive Tabellen zur
- Auswertung, Gruppierung und Aggregation von Daten
- Neuordnung und Analyse von Daten
- bequemen und wirkungsvollen Analyse von großen Datenbeständen auf beliebige Kriterien hin.
Wichtig: Calc bietet viele Möglichkeiten der Gestaltung, Formatierung etc. Dies ist für den Einsatz als Bürosoftware sinnvoll und schön. Bei der Verwendung des Programms zur Datenaufnahme oder –analyse sollte auf ihren Einsatz möglichst verzichtet werden, da Pivot wie auch externe Programme Gefahr laufen, diese fehlerhaft zu interpretieren. Devise: Keep it simple!
Pivot-Tabellen besitzen den Vorteil, dass auf ihrer Datengrundlage Berechnungen durchgeführt werden können, ohne dabei den Ausgangsdatenbestand zu verändern. Die Ursprungsdaten bleiben stets erhalten.
Grundvoraussetzung ist eine umfangreiche, aussagekräftige und gut strukturierte Datensammlung. Daher gilt es sich vorab zu überlegen:
- Welche Daten werden für die Beantwortung meiner Fragestellung benötigt?
- Welche Fragen können auf welche Weise in einer Pivot-Tabelle beantwortet werden?
- Welche Beziehungen zwischen Daten sollen ermittelt werden?
Wir werden uns im Folgenden der Arbeit mit Pivot-Tabellen anhand der Künstlernamen-Datei (artists.csv[A 1]) des Museum of Modern Art (MoMa) nähern. Diese umfasst 14.770 Einträge. Die Datei wurde aus der MySQL-Datenbank heruntergeladen; anschließend wurden für die folgenden Übungszwecke unnötige Spalten entfernt. Die Tabelle umfasst folgende Spalten:
- Name
- Nationalität
- Geschlecht
- Geburts- und
- Sterbejahr
Glätten des Datenbestands
Da bei uns allein die Künstler im Fokus des Interesses stehen, gilt es den Datensatz zunächst noch auf Sinnhaftigkeit hin zu überprüfen. Dabei fällt beim Durchscrollen folgendes auf:
- Einträge, die ein Geburtsdatum angeben, welches unwahrscheinlich modern ist (z.B. 2000)
- Einträge, die weder Nationalität noch Geschlecht verzeichnen (jeweils
NULL
)
Bei der Nationalität ist Nationality unknown
von NULL
zu unterscheiden. Während in ersterem Fall die Nationalität nicht bekannt ist, wurde bei NULL
kein Eintrag in der Datenbank vorgenommen; es könnte also sein, dass die Nationalität zwar ermittelbar ist, jedoch (noch) nicht eingetragen wurde.
Filtern wir zunächst einmal alle Einträge heraus, die weder einen Eintrag bei Geschlecht noch bei Nationalität besitzen:
Reiter "Daten" → Filter → Standardfilter
⇒ Feldname "Nationalität" – Bedingung "=" – Wert "NULL"
UND
⇒ Feldname "Geschlecht" – Bedingung "=" – Wert "NULL"
- Wählen Sie in der Statusleiste
Anzahl
aus, um zu erfahren, wie viele Datensätze betroffen sind: 3593 - Löschen Sie alle betroffenen Einträge: Markieren Sie zunächst alle Spalten und gehen Sie auf
Bearbeiten → Inhalte löschen
und bestätigen Sie mit OK[A 2]. - Markieren Sie anschließend wiederum Spalte A-E und heben Sie die Filterung auf:
Daten → Filter → Standardfilter → Feldname "keiner"
. - Es werden nun alle Datensätze angezeigt, die nicht von der Löschung betroffen waren.
- Geblieben sind die Leerzeilen, die im nächsten Schritt zu tilgen sind: Markieren Sie abermals die Spalten und gehen Sie in den Standardfilter. Wählen Sie dort bei Spalte A (oder einer beliebigen anderen Spalte) bei "Wert" aus, dass dieser "Nicht leer" ist. Nun werden alle entsprechenden Zeilen angezeigt; die leeren Zeilen sind zu diesem Zeitpunkt zwar nicht sichtbar, jedoch noch vorhanden. Um diese endgültig zu tilgen reicht es aus, die aktuelle Auswahl zu kopieren (
Strg C
) und in einem neuen Tabellenblatt wieder einzufügen (Strg V
).
Selbiges wiederholen wir nun für die Einträge, die verdächtig hohes "Geburtsjahr" aufweisen; dieses ist häufig ein Indiz dafür, dass es sich um eine Institution handelt.
- Filtern wir also wie gewohnt, diesmal nach "Geburtsjahr" größer als "1989". In der Tat handelt es sich bei dem ausgegebenen Ergebnis fast ausschließlich um Firmen. Die qualitative Sichtung des Ergebnisses ergibt: Die wenigen (sehr jungen) Künstler, bei denen es sich um reelle Personen handelt, sind erkennbar an der Geschlechtsangabe.
- Löschen wir nun alle Einträge bis auf die eben genannten Personen.
- Markieren wir anschließend wiederum alle Spalten und heben die Filterung auf.
- Löschen wir wie eben gelernt erneut die Leerzeilen durch Filtern und Kopieren in ein neues Tabellenblatt.
Unsere Datensammlung umfasst nun 12.902 Einträge. Passen wir die neue Tabelle an, in dem wir
- die Spaltenbreite auf die Länge des Inhalts aufziehen
- über der ersten Datenzeile wiederum die Beschriftung einfügen: Name, Nationalität, Geschlecht, Geburtsjahr, Sterbejahr.
- unsere Tabelle im Reiter unten links in "artists" umbenennen.
Erstellen der Pivot-Tabelle
Nun haben wir den Datensatz für unsere Zwecke aufbereitet und können eine Pivot-Tabelle erstellen[A 3].
- Markieren Sie zunächst die Spalten, die sie in Ihre Pivot-Tabelle einbeziehen möchten.
- Klicken Sie dann auf
Daten → Pivot-Tabelle → Erstellen
. - Es öffnet sich das Menü "Pivot-Tabellen Layout".
- Rechts sehen Sie die verfügbaren Felder aus Ihrer Auswahl.
- Links finden sich einzelne Aktionsbereiche, denen Sie nun die einzelnen Spalten zuordnen können.
- In der Regel sollten Sie mindestens ein Zeilenfeld und ein Datenfeld befüllen. Dies erfolgt indem Sie per Drag&Drop eines der verfügbaren Felder einem Bereich zuordnen (Das Löschen erfolgt durch Anklicken und Drücken der Entfernen-Taste).
- Sobald ein Feld zugeordnet wurde, können Sie mit einem Doppelklick in das entsprechende Feld das Kontextmenü öffnen. Dieses hält mehrere grundlegende statistische Auswertungsmöglichkeiten bereit. Indem man zusätzlich ein Spaltenfeld mit einbezieht und dadurch eine sogenannte Kreuztabelle erstellt, erhält die Pivot-Tabelle eine größere Aussagekraft.
Abbildung ergänzen
Anwendungsbeispiel
Erkenntnisinteresse: Wir möchten ermitteln, wann – geordnet nach Jahren – im 19. Jahrhundert wie viele der Künstler, getrennt nach Geschlecht, geboren wurden.
- Hierzu ziehen wir "Geburtsjahr" in das Feld
Zeilenfelder
, da wir unsere Untersuchung nach den entsprechenden Jahren ausrichten werden. - Ebenfalls ziehen wir "Geburtsjahr" in das Feld
Datenfelder
. - Da wir die Anzahl pro Jahr ermitteln möchten, doppelklicken wir und es öffnet sich das Kontextmenü. Dort wählen wir "Anzahl" aus und bestätigen mit OK.
- Da wir das Ergebnis nach Geschlecht aufschlüsseln möchten, ziehen wir nun noch "Geschlecht" in das Feld
Spaltenfelder
. - Wir bestätigen die Pivot-Tabelle durch einen Klick auf OK und sie wird in einem neuen Tabellenblatt nach unseren Vorgaben erstellt.
- Die soeben getätigten Vorgaben können jederzeit durch einen Rechtsklick auf die angegrauten Zellen abgeändert werden.
Um nun aus der Übersicht diejenigen Fälle auszuwählen, die dem 19. Jahrhundert entstammen, klicken wir mit der rechten Maustaste auf das Feld Geburtsjahr
und anschließend auf "Filter". Im sich öffnenden Kontextmenü können wir die Filterkriterien bestimmen:
Feldname "Geburtsjahr" – Bedingung ">=" – Wert "1800"
UND
Feldname "Geburtsjahr" – Bedingung "<" – Wert "1901"
Zur Visualisierung des Ergebnisses bietet sich ein Liniendiagramm an. Wie wir im Abschnitt Visualisierung mit Calc kennengelernt haben
- klicken wir auf "Diagramm erstellen"
- wählen den Diagrammtyp "Liniendiagramm" aus
- wählen anschließend den Datenbereich aus (hier:
$‘Pivot-Tabelle_artists_1‘.$A$2:$D$102
) - danach die Datenreihen. Hier gilt es zu berücksichtigen: Wählen Sie für beide Geschlechter (und NULL) den entsprechenden Datenbereich aus (Female:
…$B$3:$B$102
∫ Male:……$C$3:$C$102
∫ NULL:…$D$3:$D$102
). Die Gesamtergebnisse werden nicht berücksichtigt.
Abbildung ergänzen
Wie wir sehen, eignet sich eine Pivot-Tabelle und die zugehörige Visualisierung gut zur Darstellung von nach bestimmten Gesichtspunkten gefilterten Datenmengen.
Andere mögliche Fragestellungen wäre beispielsweise:
- In welchen Jahren hat Dürer wie viele Werke erstellt?
- Welchen Anteil besitzen Dürers Werke am Bestand von …?
- In welchem Jahr wurden wie viele Objekte von einem Museum angekauft? Von wann stammen diese Objekte gleichzeitig?
Anmerkungen
- ↑ Beim Öffnen gelangen Sie zunächst in einen Textimport-Assistent. Hier brauchen Sie keine Änderungen vorzunehmen, bestätigen Sie einfach mit OK.
- ↑ Bei den betroffenen Fällen handelt es sich entweder um Institutionen oder um ungenaue Einträge von Personen, bei denen teilweise die Nationalität dem Namen hinzugefügt wurde. Normalerweise wäre es nun erforderlich, eine weitere Glättung des Datenbestandes durchzuführen und die ungenau bezeichneten Personen von den Institutionen zu trennen. Darauf wird in diesem Fall aus pragmatischen Gründen verzichtet.
- ↑ Natürlich könnte man die Daten nun weiter glätten – beispielsweise sind Eintrag 3 und 5 offenkundig Firmen und damit irrelevant, Eintrag 2 ist zumindest zweifelhaft –, was in unserer Übung aber nicht notwendig ist. Hier zeigt sich jedoch, wie wichtig eine möglichst umfassende Auszeichnung der Daten ist; in diesem Fall wäre es zum Beispiel sinnvoll gewesen, in einer separaten Spalte natürliche Personen und Institutionen entsprechend zu kennzeichnen.