Wissenschaftliche Bearbeitung und Nutzbarmachung

Auf Grundlage der durch den Digitalisierungsdienstleister Editura GmbH gelieferten XML-Dateien (s. dazu Texterkennung und -auszeichnung) erfolgt die Textauszeichnung durch den wissenschaftlichen Mitarbeiter des Projekts, die auf eine tiefere Granulierung zielt. Aufgrund des elaborierten Ausgangsmaterials und der konsequenten Überführung dieser Strukturmerkmale in das TEI|XML-Format kann dieser Arbeitsschritt zweistufig erfolgen. 

In einem ersten Schritt kommen eigens für dieses Projekt programmierte Perl-Skripte zur Anwendung. Das heißt, hier erfolgen zunächst automatisierte suche&ersetzen-Muster. 80% der Fälle können hierdurch abgedeckt werden. 

Das heterogene Ausgangsmaterial macht jedoch einen zweiten Bearbeitungsschritt notwendig. In diesem werden einerseits anhand von Stichproben die automatischen Ersetzungen überprüft. Das ist nicht zuletzt deswegen nötig, weil sich aufgrund der langen Laufzeit des Journals immer wieder Änderungen im Layout ergeben. Zudem bleiben aber ca. 20% der Fälle für eine händische Nachbearbeitung.

Textauszeichnung Phase 1

Im »Polytechnischen Journal« wird ausgiebig Gebrauch von einer gezielten Auszeichnung von Textteilen gemacht (siehe auch Texterkennung). Das sogenannte ›Sperren‹ ist dabei eine sehr gängige Methode. Ein gesperrter Begriff würde in einer XML-Datei folgendermaßen erscheinen: <hi rendition="#wide">Dingler</hi>.

Das eigentlich Interessante dabei ist jedoch, warum dieser Begriff gesperrt wurde bzw. worum es sich dabei handelt. Für den Leser ist es ganz klar: Dingler ist eine Person. Ohne den Einsatz einer entsprechenden Datenbank ist das der Maschine aus dem Programm-Code aber keinesfalls ersichtlich. Und tatsächlich ist auch nicht jeder ›gesperrte‹ Begriff eine Person.

Nach einer Analyse verschiedener Bände des »Polytechnischen Journals« konnten Szenarien festgestellt werden, unter welchen Umständen es sich bei einem ›gesperrten‹ Begriff zu 99% um eine Person handelt. Es handelt sich bspw. um eine Person, wenn ein Begriff innerhalb von <titlePart type="main"> mit dem Element <hi rendition="#wide"> umschlossen ist.

Nachdem noch festgelegt wurde, wie Personen in unseren Dateien ausgezeichnet werden, können wir hier ein groß angelegtes (globales) und automatisches suchen&ersetzen-Muster aufrufen.

Für das eben genannte Bsp. funktioniert das folgendermaßen:

Die Suche wird zunächst per XPATH eingeschränkt auf ein bestimmtes Element. In diesem Falle auf das Element <titlePart type="main"> per //text//titlePart[@type='main']. Dann wird nach allen <hi>-Elementen gesucht, die das Attribut @rendition='#roman' besitzen. Da wir zwar wissen, dass wir hier Namen finden werden, aber nicht wissen können, um welche Namen es sich handelt, verwenden wir hierfür einen regulären Ausdruck: <hi\s+rendition="#wide"*>([^<]+)</hi>. Wir suchen also nach einem beliebigen gesperrten Ausdruck. Ersetzt wird dann nur das umschließende Element. Deswegen wird der Name mit den runden Klammern gecaptured. In diesem Projekt würde der Ersetzungsausdruck folgendermaßen aussehen: <persName role="author" ref="&persons;#pers">$1<persName>. $1 enthält dabei genau den Namen - oder die Namen, denn es könnten auch mehrere sein - die wir oben per ([^<]+) eingefangen haben.

Wie man an diesem Bsp. sehen kann, ist unsere Textauszeichnung hier sehr tief granuliert. Mit dem role-Attribut unterscheiden wir bislang 8 verschiedene Funktionen, die eine Person erfüllen kann. Das sind bspw. Autor, Patentanmelder, Übersetzer, Herausgeber, Autor eines übersetzten Artikels usw. Das ref-Attribut hingegen verweist auf eine weitere XML-Datei, die im Rahmen dieses Projekts angelegt wurde. Dort werden alle Personen zentral verwaltet und erhalten eine 5-stellige ID. Sollte es sich bei der Person also tatsächlich um J.G. Dingler mit der ID pers00001 – den Erstherausgeber des Polytechnischen Journals – handeln, so würde das ref-Attribut mit eben jener ID vervollständigt werden. Mittlerweile kann dieser Ersetzungsschritt durch ein perl-Skript halb-automatisiert erfolgen. Das heißt, alle eindeutigen Fälle werden von der Maschine ausgeführt; alle Zweifelsfälle müssen händisch nachgearbeitet werden.

Was hier en détail für ›gesperrte Begriffe‹ bzw. Personen beschrieben wurde, wird in ganz ähnlicher Art und Weise für sehr unterschiedliche Strukturelemente des TEI gemacht. Bspw. werden die von Dingler genutzten Quellen ausgezeichnet. Auch diese werden zentral in einer XML-Datenbank verwaltet. Zudem werden die kompletten bibliographischen Metadaten als solche ausgezeichnet. Damit wird ein Verlinken mit bereits digitalisierten Originalquellen vorbereitet. Außerdem zeichnen wir Datums- und Ortsangaben aus. Und alle im Journal auffindbaren Verweise auf andere Artikel/Seiten innerhalb des Journals werden ebenfalls getaggt. Per Transformation werden aus diesen dann Hyperlinks im HTML, sodass die Leser ganz gezielt an die referierten Stellen springen können.

Textauszeichnung Phase 2

Die vollautomatische Textauszeichnung hat natürliche Grenzen. Dies umso mehr, da Dinglers Journal mit einer Laufzeit von 111 Jahren einem stetigen Wandel unterlegen ist. Verschiedene Drucktechniken wie auch die wechselnde Herausgeberschaft zwingen uns immer wieder, unsere Auszeichnungsstrategien an den Bestand anzupassen. 

In Phase 1 werden bspw. die Artikeltypen unterschieden. Mit Hilfe eines etwas komplexeren XPATH-Ausdrucks wird nach all jenen Kapiteltiteln gesucht, in denen entweder das Wort Patent oder Brevet auftaucht: 

//titlePart[@type='main'][matches(.,'\s+Patente?\s+')]/ancestor::text[@type='art_undef'] | //titlePart[@type='main'][matches(.,'\s+Brevet\s+')]/ancestor::text[@type='art_undef']

Jeder Treffer deutet daraufhin, dass es sich hierbei um eine Patentbeschreibung handelt. Da wir Patentbeschreibungen als speziellen Artikeltyp auszeichnen, wird das ›tagging‹ entsprechend angepasst: @type="art_patent". In den allermeisten Fällen funktioniert das einwandfrei.

Manchmal wird aber im Titel des Artikels ein Patent erwähnt, ohne dass es sich dezidiert um eine Patentbeschreibung handelt. Für diesen Fall wird jeder Band des Journals einmal händisch kontrolliert und gg.-falls korrigiert. Vor allem die acht unterschiedlichen Personentypen bringen eine automatische Erkennung recht schnell an ihre Grenze. Da aber für einen gezielten Zugriff auf das Digitalisat dieses Referateorgans diese Unterscheidung wichtig ist, ist an dieser Stelle eine händische (und damit zeitaufwendige) Nachbearbeitung unumgänglich.

In diesem manuellen Bearbeitungsschritt wird auch noch mal auf die OCR-Erfassung geachtet. Mögliche Erfassungsfehler werden korrigiert, und Fehler im Original gg.-falls per <choice> kenntlich gemacht. Dieses TEI-Element gestattet es dem Nutzer, dass sowohl die originale und möglicherweise falsche Schreibweise angezeigt wird, wie auch die durch die Herausgeber bzw. Bearbeiter des digitalisierten Polytechnischen Journals korrigierte bzw. normalisierte Version.

Schließlich pflegen wir eine weitere xml-Datei, in der wir besonders bemerkenswerte Artikel des Journals verwalten. Daraus soll in Zukunft wöchentlich ein twitter-Account gespeist werden, mit welchem die interessierten Leser einen Direktzugriff auf unsere Lieblingstrouvaillen erhalten.