Textauszeichnung am Modell

Der Dienstleister Editura GmbH liefert eine TEI-Datei pro texterfasstem Band aus. Diese sind mit Strukturdaten angereichert. In einem zweistufigen Verfahren werden diese Dateien tiefer granuliert. Neben den TEI-Dateien wird pro Band auch eine METS-Datei ausgeliefert. Dieses Kontainerformat für Strukturdaten ist sowohl für die Präsentation mit Goobi wie auch mit dem DFG-Viewer notwendig.

Im Folgenden soll anhand von drei Beispielen detailliert auf unsere Auszeichnungstrategien eingegangen werden:

1) Register

Zum Ende jedes Jahrgangs enthält das »Polytechnische Journal« ein umfangreiches Personen- und Sachregister. Zusätzlich dazu wurden zum Polytechnischen Journal vier sogenannte Real-Indizes gefertigt, die jeweils ca. 40 Bände des Journals umfassen, wobei es sich hier um reine Sachregister handelt.

Diese Register werden ebenfalls komplett per OCR erfasst und ausgezeichnet. Sie werden später tiefer granuliert und in unser im Folgenden beschriebenes TEI-basiertes Register mit aufgenommen.

Das TEI-basierte Personenregister:

Eine Person, die im Journal als solche identifiziert wurde, erhält einen Eintrag in einem zentral verwalteten XML-File. Gemäß den TEI Richtlinien sieht ein solcher Eintrag wie folgt aus.

<person xml:id="pers00033">
    <persName>
        <roleName>Prof. Dr.</roleName>
        <surname>Schönbein</surname>
        <forename>Christian Friedrich</forename>
    </persName>
    <birth>
        <date when="1799-10-18"/>
        <placeName>Metzingen bei Reutlingen</placeName>
    </birth>
    <death>
        <date when="1868-08-29"/>
        <placeName>Bad Wildbad (Schwarzwald)</placeName>
    </death>
    <occupation>
        <ref target="http://mdz10.bib-bvb.de/~db/bsb00008390/images/index.html?seite=258">ADB|NDB</ref>
    </occupation>
</person>

Per xml:id erhält der Eintrag eine eindeutige Projekt-ID. Wann immer diese Person im Journal erwähnt wird, wird dann per ref="&persons;#pers00033" auf den Datensatz verlinkt. Wenn möglich wird ein Quelle angegeben, die weitere Informationen zur Person enthält, bspw. also die ADB (Allgemeine deutsche Biographie) bzw. NDB (Neue deutsche Biographie). Perspektivisch soll dieser Datensatz mit der entsprechenden PND (Personen Normdatei) komplettiert werden.

Quellen

Ein ähnliches Vorgehen wird für die im Journal genannten Quellen verfolgt. Das »Polytechnische Journal« ist ein Referateorgan und die Herausgeber haben sehr sorgfältig ihre Quellen ausgewiesen. Ein typischer Eintrag im Journal würde vor der wissenschaftlichen Bearbeitung wie folgt aussehen:

<titlePart type="sub" rendition="#center">
    Aus dem <hi rendition="#wide">Mechanics' Magazine</hi>
    <hi rendition="#roman>N.</hi> 441. S. 290.
</titlePart>

Die weitere Strategie verfolgt den Ansatz, die einzelnen Elemente in ihrer Funktion kenntlich zu machen. Im genannten Beispiel handelt es sich zweifelsfrei um eine bibliographische Angabe: Es wird ein Journaltitel erwähnt, eine Heftnummer und eine Seitenzahl.

Gemäß TEI P5 wird daraus:

<titlePart type="sub" rendition="#center">
    Aus dem
    <bibl type="source">
        <title level="j" ref="&journals;#jour0011">Mechanics' Magazine</title>
        <biblScope type="iss">N. 441.</biblScope> <biblScope type="pp">S. 290.</biblScope>
    </bibl>
</titlePart>

Und wir nehmen zusätzlich einen Eintrag in einer XML-Datei vor, in der zentral und eindeutig alle Quellen verwaltet werden:

<bibl xml:id="jour0011">
    <title level="j">Mechanics' Magazine: museum, register, journal, and gazette</title>
    <pubPlace>
        <country>England</country>
    </pubPlace>
    <date from="1823" to="1873">1823-1873</date>
    <ref target="#ZDB-ID">423434-0</ref>
    <ref target="e-journal">http://rzblx1.uni-regensburg.de/ezeit/?2248618</ref>
</bibl>

2) Verlinkungen innerhalb des Journals

Die Herausgeber des »Polytechnischen Journals« versuchen ihren Lesern von Beginn an dabei behilflich zu sein, die sehr heterogen abgehandelten Themen zu strukturieren und miteinander zu vernetzen. So finden sich sehr häufig Hinweise auf Artikel innerhalb des Journals, die Gleiches oder Ähnliches behandeln.

Im Bearbeitungsschritt der Wissenschaftlichen Bearbeitung des Digitalisats wird gezielt nach diesen Verweisen gesucht, um diese zu ›taggen‹ und per bandübergreifendem Link in der Textansicht als Hyperlink zur Verfügung zu stellen.

Mit einem schon recht komplexen suche&ersetzen-Muster funktioniert dieser Arbeitsschritt mittlerweile automatisch. Zum Einsatz kommt folgendes Suchmuster, das auf regulären Ausdrücken beruht:

my $pat = qr/
    (
        (?:\s+)
        (?:
            (?:polyt[^<]*)
            |
            (?:diesem)
            |
            (?:unser[^<]*)
            \s+
        )?
        journ(?:ale?)?
        (?:<\/hi>)?
        [,.]?\s+
    )
    (
        [BV](?:an)?d?\.?\s+
        (?:<hi\s+rendition="\#roman"\s*>)?
        (
            (?:[ivxlcdm]{1,8})
            |
            (?:[1-9][0-9]{0,2})
        )
        (?:<\/hi>)?
        [,.]*
        (?:
            \s+Heft\s+\d\[.,]?
        )?
        \s+
        S(?:eite)?\.?\s+(\d{1,3})
        (?!<\/ref>)
    )/isx;

Übersetzt heißt das: Suche nach dem Vorkommen von so etwas wie »polyt. Journal Bd. VI, S. 342«. Der reguläre Ausdruck würde aber auch diverse Varianten dieser Schreibweise finden, es könnte also auch von »unserem Journal« die Rede sein, wobei dies mit einem <hi> Element umschlossen sein könnte. Statt Bd. könnte es auch »Band« heißen. Die eigentliche Bandangabe kann sowohl in römischen wie auch arabischen Ziffern erscheinen. Ein Heft kann genannt sein, muss aber nicht usw.

3) Text-Bild Verhältnis

Das »Polytechnische Journal« ist ein Referateorgan, das einem großen Leserkreis zugänglich gemacht werden sollte. Nicht zuletzt deswegen hatte man von Beginn an auch Wert gelegt auf qualitativ sehr hochwertige Abbildungen in den Falttafeln am Ende eines jeden Bandes, oder später Heftes.

Diese Tafeln werden per Link aus dem Text heraus zugänglich gemacht:

<titlePart type="sub" rendition="#center">
    Mit Abbildungen auf
    <ref target="#tab044493">Tab. V</ref>.
</titlePart>

Zusätzlich werden die Einzelfiguren der Tafel mit Hilfe des von der University of Victoria entwickelten Image Markup Tools per Koordinaten ausgezeichnet. So ist es möglich, aus dem Text heraus direkt auf diese zu verlinken:

<ref rend="new" target="image_markup/tab044493.xml#fig044493_38">Fig. 38</ref>

Dieser Link verweist dann auf das zur Tabelle gehörende und per Image Markup Tool generierte XML-File, wobei bspw. Fig. 38 dort wie folgt ausgezeichnet wurde:

<zone xml:id="fig044493_38" rendition="Einzelfiguren" ulx="2258" uly="229" lrx="2776" lry="492"
                rend="visible"/>

Diese Auszeichnungsstrategie verfolgt zwei Ansätze:

1) Es wird das ursprüngliche Text-Bild-Verhältnis wiederhergestellt, in dem das parallele Lesen von Text und Bild mit Hilfe der Aufklapptafel am Ende des Bandes ermöglicht wurde.

2) Die Verlinkung aller Einzelfiguren und Präsentation einer detaillierten Zoom-Ansicht in einem Pop-Up verbessert die Lesbarkeit. Da die Tafeln aus ökonomischen Gründen mit bis zu 100 oft zu verschiedenen Artikeln gehörenden Figuren gefüllt wurden, sorgt unsere Auszeichnung und Einzelverlinkung für eine ganz neue Integration von Text und Bildern.