Texterkennung und Auszeichnung mit Metadaten

Die Editura GmbH ist ein erfahrener Digitalisierungsdienstleister, unter anderem verantwortlich für »Zeno.org«, der größten deutschsprachigen Online-Bibliothek. Für die Digitalisierung des »Polytechnischen Journals« leistete sie die gesamte Texterkennung und Basisauszeichnung.

Auszeichnungsstandards der ersten Projektphase

In enger Zusammenarbeit zwischen der Editura GmbH und dem wissenschaftlichen Mitarbeiter wurden für das Projekt folgende Auszeichnungsstandards entwickelt und festgelegt.

TEI-Standards und projektbezogene Festlegungen

Die Auszeichnung der Volltexte folgt möglichst weit den Richtlinien der sogenannten Text Encoding Initiative (TEI). Der aktuelle Standard (seit 2007) sind die P5 Guidelines. Nach diesem Verfahren wird eine Hard- und Software-unabhängige Arbeit mit den umfangreichen Beständen garantiert. Sowohl das Erfassen und Speichern, wie auch der verlustfreie Austausch von Daten werden so standardisiert. Alle projektbezogenen Festlegungen sind im Header der TEI-Dateien der einzelnen Bände und der Projektschemadokumentation aufgeschlüsselt und einsehbar.

Die Auszeichnung der Volltexte

Volltexte werden bandweise in einer semantisch angereicherten Basisauszeichnung ausgeliefert.

Die Basisauszeichnung umfasst (u.a.):
  • Erfassung jeder Seite und jedes Textzeichens des Faksimiles
  • Auszeichnung von Seitenumbrüchen
  • Ausweis von Titelseiten und Überschriften bis auf Ebene einzelner Miszellen
  • Kennzeichnung von Layouthervorhebungen des Vorlagentextes
  • Möglichst weitreichender Erhalt der Besonderheiten des Textes hinsichtlich des Seitenaufbaus. (Einschränkung: vertikal ausgerichtete Textelemente werden gedreht)
Über die Basisauszeichnung hinaus gehen die folgenden Aspekte:
  • Die Hierarchieebenen der Textbände werden über Band, Heft, Artikel, Miszellen bis auf die Feinstruktur des Fließtextes (Absätze) abgebildet
  • Die jahrgangsübergreifende Reihenzählung des Journals wird als alternative Zählung von Jahrgängen, Heften und Artikeln mitgeführt
  • Artikel und Miszellen werden über ein type-Attribut inhaltlich klassifiziert
  • Literaturverzeichnisse werden ausgewiesen und einzelne Einträge feinstrukturiert
  • Patentverzeichnisse werden als solche ausgewiesen. Jedes Patent wird einzeln getaggt und mit einer ID ausgestattet
  • Verweise auf Tafelabbildungen und Einzelfiguren auf den Tafeln werden aus dem Text heraus verlinkt
  • Tabellen werden soweit als möglich erfasst und für die HTML Ansicht optimiert
  • Komplexe Tabellen werden nicht als Text, sondern als Bilder erfasst
  • Schlagworte und Überschriften dieser Tabellen werden als versteckter Findtext erfasst
  • Gedruckte Inhaltsverzeichnisse werden mit den entsprechenden Artikeln verlinkt
  • Die bandübergreifende Verlinkung vom Register wird vorbereitet
  • Hinweise auf Fortsetzungsartikel und Herausgeberzusätze werden ausgewiesen
  • Dokumentation von unleserlichen Stellen in der Vorlage, fehlenden bzw. doppelten Seiten, Sprüngen in der Textlogik, falsch eingebundenen/fehlenden Tafeln (Einzelfiguren auf Tafeln)

Projektsteuerung

Über ein ODD-File wird die Erstellung eines Schemas gesteuert, dass sowohl die für die Auszeichnung eingesetzten Elemente dokumentiert als auch restriktive Vorgaben zu den
verfügbaren Attributen und die für diese zugelassenen Werte macht. Die Editura liefert mit den volltexterfassten Bänden in erster Revision ein Basisschema, das während der wissenschaftlichen Feinauszeichnung durch weitere Elemente, Attribute und Werte ergänzt wird.

Dieses restriktive Vorgehen gewährleistet während der gesamten Arbeit an den Texten sowohl eine umfassende Projektdokumentation als auch auch die Einhaltung hoher Qualitätsstandards. Für die Erfassung von Sonderzeichen im Text, die noch keine Entsprechung im Unicodestandard haben, wurde das folgende für dieses Projekt spezifische Vorgehen entwickelt: Die Textzeichen werden aus dem Faksimilescan ausgeschnitten und als kleine Textbilder über eine Entity in den Volltext eingebunden. Eine externe Datei listet die Entities und ermöglicht ihre zentrale Steuerung und Ersetzung über den gesamten Bandbestand.

Ein konkretes Auszeichungsbeispiel aus dem ›Dingler‹

Das »Polytechnische Journal« macht ausgiebig Gebrauch von einer gezielten Auszeichnung von Textteilen. Von den verschiedenen Möglichkeiten des Auszeichnens (kursiv, fett, unterstrichen...) kommt dabei sehr häufig der sogenannte ›Sperrsatz‹ (vergrößerter Abstand zwischen den Zeichen eines Wortes) zum Einsatz.

In dem von der Editura GmbH vorgenommenen Arbeitsschritt der automatisierten Texterfassung kann nur prinzipiell zwischen den verschiedenen Textauszeichungen im Original unterschieden werden, d.h. bspw. zwischen gesperrten und nicht-gesperrten Begriffen. Wichtig ist aber, dass dies von Beginn an und konsequent verfolgt wird.

Ein von den Hrsg. des Journals hervorgehobener Eigenname wie »Dingler« sieht dann in der XML-Datei wie folgt aus: <hi rendition="#wide">Dingler</hi>

Sowohl für die Projektmitarbeiter wie auch die Maschine ist damit klar, dass es sich um einen Begriff handelt, der im Original gesperrt gesetzt war. Die inhaltliche Entscheidung, warum ein bestimmter Begriff gesperrt wurde, ist aber daraus nicht ersichtlich und obliegt dem wissenschaftlichen Mitarbeiter des Projekts. Dahinter steckt die Frage, worum es sich bei diesem Begriff tatsächlich handelt. Das hat dann direkte Konsequenzen für die weitere Bearbeitung der Dateien, in der eine höhere Granularität erzielt werden soll (siehe dazu ›Wissenschaftliche Bearbeitung‹).