Vorwort mit Hinweisen zur Notation

From DHVLab

R ist zweierlei: eine Programmiersprache und eine Open-Source-Software, die unter den Bedingungen der GNU General Public License (GPL) lizensiert wird – und daher in jedweder Weise frei genutzt, bearbeitet und weiterverbreitet werden darf. Sie zeichnet sich insbesondere für statistische Fragestellungen, für die Datenanalyse und -visualisierung aus. Ein kontinuierlich gepflegter Fundus an Zusatzpaketen, die über das Comprehensive R Archive Network (CRAN) installiert werden können, ermöglicht es, einfache wie schwere Probleme zu lösen, ohne entsprechende Funktionen selbst erstellen zu müssen. R ist aufgrunddessen sowohl in der Lage, simple arithmetische Berechnungen (Addition, Subtraktion, Multiplikation, Division) auszuführen, als auch komplexere Untersuchungen (Regressionsmodelle, Clusteranalyse) anzustoßen, die ohne Computerunterstützung zeitintensiv sind.

Ziele und Aufbau

Die Lehrmodule sollen Ihnen einen Überblick über die Möglichkeiten von R mit konkreten, für Geisteswissenschaftler relevanten Anwendungsbeispielen liefern und Sie an die Hand nehmen, erste eigene Analysen auszuführen – und vor allem zu meistern. Zunächst wird dafür die integrierte Entwicklungsumgebung RStudio eingeführt. Es folgen Grundlagen der Programmierung, welche die unterschiedlichen Datentypen und -strukturen in R erläutern und beispielhaft deren Unterschiede aufzeigen. Anschließend stehen Befehle zum Import und Export von Daten im Fokus. Im Punkt Datenaufbereitung werden daraufhin die Grundlagen angewandt und importierte Datensätze für die weitere statistische Auswertung vorbereitet. Es sind keinerlei informatische oder statistische Vorkenntnisse vonnöten – wohl aber das Interesse, über Datensätzen zu sitzen und zu knobeln.[A 1] Auch wenn dies erst einmal mühselig klingen mag: Erste Erfolgserlebnisse zeigen sich mit R erstaunlich schnell.

Referenzen

Für die weiterführende Lektüre ist zum einen das offizielle Benutzerhandbuch An Introduction to R empfehlenswert, zum anderen der Bereich Frequently Asked Questions on R; beide sind in R Project verankert. Eine aktive Plattform, um Probleme zu diskutieren und Lösungen auszutauschen, findet sich zudem in dem Internetforum Stack Overflow, das Beiträge, die sich thematisch auf R beziehen, explizit als solche kennzeichnet. Nach einer entsprechenden Registrierung können dort auch eigene Fragen eingestellt und von anderen Mitgliedern beantwortet werden. Informationen zu den internen Hilfeseiten in R erhalten Sie im Abschnitt Die interne Hilfefunktion.

Hinweise zur Notation

Alle Codebeispiele in den Modulen sind entsprechend gekennzeichnet und können einfach kopiert und in die Konsole von R oder RStudio eingefügt werden. Die Struktur wird an folgendem Minimalbeispiel deutlich:

1+1 # Addition
## [1] 2

Die erste Zeile gibt den vom System auszuführenden Code an (1+1). Die Raute (#) kennzeichnet den Beginn eines Kommentars. Alle Zeichen, die nach einer Raute in einer Zeile stehen, werden von R nicht interpretiert – sie sind sozusagen kleinere oder größere Klebezettel, die den vorhergehenden Code dokumentieren oder mit Anmerkungen versehen (hier der Text Addition). Die letzte Zeile zeigt den Output, also das Ergebnis, das entsteht, wenn der vorhergehende Code ausgeführt wurde. Die zwei Rauten (##) dienen einzig der visuellen Abgrenzung zu einem Kommentar.

Anmerkungen

  1. Datenwissenschaftler bezeichnen sich nicht umsonst auch gerne als Data Wizards oder Data Monkeys.