4.lv edit

From DHVLab

Revision as of 11:11, 11 April 2018 by Jschulz (talk | contribs)

Editionstool "Squirrel"

Zum Einsatz kommt im Kurs das an der LMU München durch Prof. Dr. Mark Sven Hengerer und Dr. Gerhard Schön entwickelte und durch eine Projektgruppe stetig weiter verbesserte Editionstool "Squirrel". Squirrel entstand vor dem Hintergrund, Studierenden, Doktoranden und Wissenschaftler/-innen verschiedener Disziplinen (u.a. Geschichtswissenschaften, Germanistik, Linguistik) ein Hilfsmittel an die Hand zu geben, um Editionen zu erarbeiten, die sich durch hohe Qualitätsstandards auszeichnen.

Vorteil: Durch die Anbindung des Editionstools an die Infrastruktur des DHVLab können Studierende wie wissenschaftlich interessierte Nutzer gleichermaßen durch einmalige Registrierung im DHVLab das Tool nutzen. Die Daten, die im Editionsprozess entstehen, werden dauerhaft und sicher auf den Servern der IT-Gruppe abgelegt. Damit bietet sich gerade auch für kleinere Projekte die Gelegenheit, ihre Daten an einem sicheren Ort und institutionell angebunden abzulegen.
Durch Kooperationen des Entwicklerteams u.a. mit dem Centrum für Informations- und Sprachverarbeitung (Dr. Maximilian Hadersbeck) - kurz CIS - wird das Editionstool um Funktionalitäten erweitert und in seiner Einsatzvielfältigkeit noch verstärkt.

Projektwebseite des Editionstools "Squirrel"

Benutzung des Editionstools:
! Wichtiger Hinweis: Durch die sukzessiven Verbesserungen und Erweiterungen am Editionstool können die im folgenden genannten Hinweise zur Benutzung Veränderungen unterliegen !

Aufbau und Benutzung des Editors

Startmenü

  • Anmeldung: Melden Sie sich mit den Benutzerdaten an, die Sie bei Ihrer Registrierung im DHVLab erhalten haben
  • Anschließend werden Sie auf die Übersichtsseite weitergeleitet (siehe Abb. 1).
  • Dort befindet sich auf der rechten Seite eine Liste aller bereits hochgeladenen Schriftstücke.
  • Auf der linken Seite befindet sich eine Suchmaske, die eine detaillierte Suche nach einem bestimmten Schriftstück (z.B. über zugehörige Metadaten) ermöglicht.
  • Sobald Sie ein Schriftstück anklicken, öffnet sich im unteren Bereich eine Detailseite, die Ihnen alle zugehörigen Informationen sowie Abbildungen des ausgewählten Stückes ausgibt.
Abb. 1: Übersichtsseite des Editionstools

Startmenü: Hinzufügen eines Datensatzes

  • Drücken Sie die Taste "F9".
  • Es öffnet sich das Kontextmenü (vgl. Abb. 2). Durch Klick auf das graue Dreieck öffnet sich ein Eingabedialog für den Import der Bilddatei Ihres Schriftstückes. Sie können auch mehrere Bilddateien hochladen (z.B. bei einem mehrseitigen Brief), indem Sie wiederum auf das graue Dreieck klicken.
  • Anschließend können Sie die zugehörigen Metadaten eingeben, wie z.B. Archivsignatur, Ausstellungsort und -datum.
  • Tipp (um fehlerhaften Upload zu vermeiden): Speichern Sie den Datensatz zunächst nur mit den zugehörigen Bildern mit Klick auf den zugehörigen Button (grünes Pluszeichen). Doppelklicken Sie anschließend auf den soeben angelegten Eintrag in der Liste der vorhandenen Schriftstücke. Fügen Sie anschließend die gewünschten Metadaten hinzu.
  • Sollte der neu hochgeladene Eintrag nicht sofort angezeigt werden, loggen Sie sich erneut bei Squirrel ein.
Abb. 2: Übersichtsseite des Editionstools

Transkriptionsumgebung

  • Um mit der Transkription Ihres Schriftstückes zu beginnen, klicken Sie auf den entsprechenden Eintrag in der Liste der Schriftstücke. Es öffnet sich im unteren Bildschirmbereich eine Detailseite inklusive einer verkleinerten Abbildung Ihres Schriftstückes. Klicken Sie darauf, um in die Transkriptionsumgebung zu gelangen (vgl. Abb. 3).
  • Tipp: Sie können mit dem Mausrad in die Abbildung hineinzoomen.
  • Beginnen Sie nun mit der Transkription, in dem Sie den Text in den weißen Bereich auf der rechten Bildschirmseite Wort für Wort, Zeichen für Zeichen eingeben.
  • Verknüpfung der Transkription mit der Abbildung:
    • Markieren Sie im weißen Bereich auf der rechten Bildschirmseite das erste Wort (z.B. "Heinrich") Ihrer Transkription.
    • Suchen Sie im Digitalisat die Stelle, an der sich das Wort "Heinrich" befindet.
    • Drücken Sie die Alt-Taste und ziehen Sie mit der Maus ein Fenster auf, welches das komplette Wort (Heinrich) im Digitalisat umfasst.
    • Lassen Sie die Maustaste los - ein Kästchen um das transkribierte Wort im Digitalisat signalisiert, dass das Wort aus der Transkription mit dem zugehörigen Bildausschnitt verknüpft wurde.
  • Möchten Sie eine fehlerhafte Verknüpfung löschen, klicken Sie entweder auf das entsprechende Kästchen im Digitalisat oder markieren Sie das entsprechende Wort in Ihrer Transkription und drücken Sie "Esc".
  • Leerzeichen, Satzzeichen etc. können beliebig zwischen den Kästchen gesetzt werden.
  • Zeilenumbrüche signalisieren werden durch das Zeichen | (Alt Gr + |) signalisiert; das System interpretiert dieses Zeichen als Umbruch.
  • Vergessen Sie nicht, vor dem Verlassen der Transkriptionsumgebung zu speichern. Möchten Sie eine Änderung nicht speichern, verlassen Sie die Umgebung über den Button "Zurück" (roter Pfeil).
Abb. 3: Die Transkriptionsumgebung

Transkriptionsumgebung: Tagging

  • Es gibt drei verschiedene Arten, transkribierte Wörter zu taggen (auszuzeichnen bzw. um Metainformationen anzureichern):
    • Parameter-Auszeichnung: Tags (grau markiert), denen Zusatzinformationen beigegeben werden: Personen, Orte (Abschnitt D im Tagset). Beispiel: Markieren Sie zunächst einen vollständigen Personennamen (z.B. "Heinrich von Hakkenberg") und klicken Sie dann auf das Tag "Person". Es erfolgt eine entsprechende Auszeichnung in der Transkription. Doppelklicken Sie nun das so markierte Tag. Es öffnet sich ein Dialogfenster, in das Sie die GND-Nummer (Normdatei) der Person - sofern vorhanden - eingeben können.
    • Blockauszeichnung: Tags (gelb markiert), durch die größere Passagen in einer Transkription gekennzeichnet werden (z.B. Formularbestandteile von Urkunden wie Protokoll, Kontext und Eschatokoll (Abschnitt A im Tagset) oder textkritische Anmerkungen/inhaltliche Erläuterungen (Abschnitt C im Tagset)).
    • Inline-Auszeichnung: Alle anderen Tags, die keine Parameter besitzen und sich nicht über eine größere Passage erstrecken (z.B. Abschnitt D im Tagset wie 'hochgestellt', 'unterstrichen', 'durchgestrichen').
  • Allgemein gilt: Elemente können sich überlagern, d.h. innerhalb einer Blockauszeichnung können Personen, Orte oder andere Auszeichnungen vorgenommen werden (vgl. Abb. 4).

Weitere Tipps für die Arbeit mit dem Editor:

  • Achten Sie immer darauf, wo sich der Cursor im Transkriptionsfeld befindet - genau dort wird beim Loslassen der linken Maustaste ein Kästchen angelegt
  • Sie können zunächst den Text Ihrer Transkription vollständig eingeben und ihn anschließend mit dem Digitalisat auf oben beschriebene Weise verknüpfen. Dies kann sinnvoll sein, wenn der Transkriptionstext bereits in weiten Teilen vorliegt.
  • Achten Sie darauf, dass - wenn Sie mit mehreren Benutzern ein Schriftstück gemeinsam bearbeiten - Sie sich nach Abschluss Ihrer Arbeit die Transkriptionsumgebung verlassen (d.h. Änderungen speichern oder abbrechen). Diese ist während Ihres Bearbeitungszeitraumes für andere Personen gesperrt.
Abb. 4: Verschiedene Arten der Textauszeichnung

Einschub: Warum wird getaggt?

  1. ) Stichwort "Extensible Markup Language" (XML): Die Auszeichnung von Transkriptionen in XML ist in den Editionswissenschaften und den Geisteswissenschaften im Allgemeinen heute ein "Quasi-Standard". Es ist daher sinnvoll, auch aus Gründen der Nachnutzbarkeit, durch die Arbeit mit dem Editionstool einen Text vorzulegen, der diesem Standard entspricht. Gleichzeitig wird durch die Ablage der Daten (und der zugehörigen Tags) in einer relationalen Datenbank eine Weiterverarbeitung in verschiedenen technischen Kontexten ermöglicht.
    Praktisch gesehen bedeutet dies: Jedes Mal, wenn im Editor ein Kästchen um ein Wort gezogen wird, wird in der Datenbank ein XML-Tag abgelegt und mit dem auszuzeichnenden Wort verknüpft. Durch diese einheitliche Form der Textauszeichnung kann später eine ansprechende und relativ einfach zu verwaltende Wiedergabe im Netz generiert werden: Mit Hilfe von XSLT kann an zentraler Stelle in der entsprechenden Style-Information die Ausgabe einzelner Elemente angepasst werden. Dies gilt ebenso für eine etwaige Druckfassung der Edition.
  2. ) Unterstützung beim Transkriptionsprozess: Durch das Tagging wird das jeweilige transkribierte Wort mit dem zugehörigen Bildausschnitt verknüpft. Die Bildausschnitte werden auf dem Webserver' abgelegt. Klickt man im Transkriptionsmodus ein Wort an, werden Transkriptionsvorschläge am oberen Bildschirmrand angezeigt (vgl. Abb. 5), die in kniffligen Fällen eine wertvolle Unterstützung bei der Lesung darstellen.
    Tipp: Mit Doppelklick auf eines der angezeigten Vorschlagbilder gelangt man unmittelbar in die Transkription des zugehörigen Schriftstückes.
    Hinweis: Bei den Vorschlägen handelt es sich um menschliche Eingaben und nicht um automatische Texterkennung (Optical Character Recognition). Sie sind daher stets 'mit Vorsicht zu genießen', um Fehlerreproduktion zu vermeiden. (N.B.: Der kritische Blick ist bei automatisierten OCR-Verfahren selbstverständlich in selbiger Weise notwendig!)
Abb. 5: Transkriptionsvorschläge dienen als Unterstützung beim Leseprozess

Werkzeuge

Unter dem Reiter "Werkzeuge" ist insbesondere die Rubrik "Korrekturstellen" von Bedeutung. Hier können Sie nach einem Wort Ihrer Wahl suchen. Geben Sie dieses in die Suchleiste ein und Klicken Sie zum Abschicken der Suchanfrage erneut auf "Korrekturstellen" im Menü auf der linken Seite. Es werden Ihnen nun alle Bildausschnitte angezeigt, die Ihrer Anfrage entsprechen. Wie in der Transkriptionsumgebung gelangen Sie durch Doppelklick direkt in das zugehörige Schriftstück. Die trunkierte, unscharfe Suche ermöglicht eine entsprechende Ausweitung der Trefferergebnisse (z.B. "%der%" gibt beispielsweise auch "oder", "andern" oder "hundert" aus). Es bietet sich, insbesondere bei der Arbeit in Teams an, ein Zeichen für die Kenntlichmachung von Unsicherheiten in der Lesung zu verwenden (z.B. "€", da dieses Zeichen in handschriftlichen Texten vor Einführung des Euros nicht existiert). Sucht man nun nach "%€%", werden alle als unsicher markierten Worte ausgegeben. Der geneigte User kann daraufhin unsichere Fälle lösen. Weiteren Möglichkeiten der Kennzeichnung von Unsicherheiten sind keine Grenzen gesetzt: Beispielsweise kann die Anzahl der fehlenden Buchstaben in einem Wort durch die entsprechende Anzahl an Unt_rstri_hen kenntlich gemacht werden. Unsicherheiten bei Groß-/Kleinschreibung können z.B. durch einen nach oben gerichteten Pfeil zum Ausdruck gebracht werden. Neben den Korrekturstellen finden sich im Bereich "Werkzeuge" auch vorläufige Personen- und Ortsregister. Diese werden automatisch auf Grundlage der Textauszeichnungen generiert. Geordnet nach der Reihenfolge der Markierungen in den transkribierten Schriftstücken, werden sie jeweils mit einem Verweis auf das zugrundeliegende Schriftstück aufgelistet.

Übungsaufgabe (Kurs)

Übungsurkunde aus der Lehrsammlung der HGW @ LMU: DE-LMUHGW|Urkunden|20 (1381 März 1, Wien) (http://monasterium.net/mom/DE-LMUHGW/Urkunden/20/charter -> Laden Sie das Digitalisat der genannten Urkunde hoch und transkribieren Sie die drei Ihnen zugewiesenen Zeilen und zeichnen Sie die Transkription entsprechend aus. In der kommenden Sitzung wird darüber zu diskutieren sein, wie man das Transkribieren am besten trainieren kann und welche Editionsrichtlinien in vorliegendem Fall sinnvoll erscheinen. Bitte machen Sie sich schon einmal Gedanken darüber, welches Stück Sie für Ihre Edition (= Leistungsnachweis) gerne bearbeiten möchten - vorzugsweise aus dem 14. Jahrhundert [Link: http://monasterium.net/mom/DE-LMUHGW/Urkunden/fond].



Zurück zu 3. Lehreinheit (Digitale Editionen: Grundlagen) ⇐⇒ Weiter zu 5. Lehreinheit (tba)