<html>
<head>
<meta http-equiv="Content-Type" content="text/html;
charset=windows-1252">
</head>
<body>
<p>Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:<br>
</p>
<blockquote type="cite"
cite="mid:351bd9ed519e4ed4b4b167b6e95f0125@adk.de">
<meta name="Generator" content="Microsoft Word 15 (filtered
medium)">
<div class="WordSection1">
<p class="MsoNormal">Liebe Kitodo-Community, <br>
</p>
<p class="MsoNormal">wir testen derzeit Software für OCR &
Transkriptionen, deren Implementierung in unseren zukünftigen
Digitalisierungsworkflow mit Hilfe von kitodo.pro und
letztlich deren Präsentation in kitodo.pre.</p>
<ul type="disc">
<li class="MsoListParagraph">Bisher gibt es<u> kein</u>
softwarebasiertes OCR bzw. Transkriptions-Verfahren in der
AdK für Archivalien, wir testen deshalb derzeit tesseract,
transkribus und (vermutlich bald) abby.
<ul type="circle">
<li class="MsoListParagraph">Anders als in Bibliotheken
wird unser Digitalisierungs-Output jedoch wesentlich
geringer sein, wir rechnen mit 3000-5000 Seiten pro
Jahr, die für OCR/Transkriptionen in Frage kommen.
</li>
<li class="MsoListParagraph">Vermutlich auch anders als in
den meisten Bibliotheken werden in der AdK vor allem
Handschriften, unterschiedliche Frakturschriften sowie
existierende Transkriptionen (Word-Dateien…)
basisbildend sein.</li>
<li class="MsoListParagraph">„Transkribus“ scheint für
das, was wir vorhaben und generieren– automatisierbare
Frakturschrift/Handschrifterkennung, manuelle
Transkription, GUI für die Bearbeitung, ALTO/TEI-Export
– zunächst ganz gut geeignet zu sein.
<ul type="square">
<li class="MsoListParagraph">Gibt es Erfahrungen von
Ihrer Seite mit der Software, die Sie mit uns teilen
könnten bzw. würden?</li>
</ul>
</li>
</ul>
</li>
<li class="MsoListParagraph">Da wir im Workflow Anforderungen
der Editionswissenschaften (z.B. Textauszeichnung,)
berücksichtigen wollen, möchten wir TEI gegenüber ALTO
zumindest in bestimmten Projekten im Workflow vorziehen.
<ul type="circle">
<li class="MsoListParagraph">Gibt es in der Community
bereits einen TEI-basierten Workflow für kitodo.pro +
kitodo.pre?<br>
</li>
</ul>
</li>
</ul>
</div>
</blockquote>
<p><br>
</p>
<p>Lieber Herr Ernst,</p>
<p>mir ist leider bisher kein Workflow bekannt, der TEI erzeugt,
auch wenn der Wunsch nach diesem Format schon vor ein paar Jahren
formuliert wurde
(<a class="moz-txt-link-freetext" href="https://github.com/UB-Mannheim/ocr-fileformat/issues/12">https://github.com/UB-Mannheim/ocr-fileformat/issues/12</a>, noch
offen). Vielleicht lässt sich diese (überschaubare) Lücke im
Rahmen der Implementierungsprojekte von OCR-D schließen. Die
starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft
noch).<br>
</p>
<p>Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte
für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns
(Einstieg hier: <a class="moz-txt-link-freetext" href="https://github.com/tesseract-ocr/tesstrain/wiki">https://github.com/tesseract-ocr/tesstrain/wiki</a>).
Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur),
die aber leider nur bedingt geeignet sind, da beide bekannte
Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.<br>
</p>
<p>Auch für Calamari gibt es gute Frakturmodelle:
<a class="moz-txt-link-freetext" href="https://ocr-d.de/en/models">https://ocr-d.de/en/models</a>,
<a class="moz-txt-link-freetext" href="https://github.com/chreul/19th-century-fraktur-OCR">https://github.com/chreul/19th-century-fraktur-OCR</a>.</p>
<p>ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate
als unsere Modelle (zumindest in unseren Tests). Es berechnet
dafür – ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY
und Transkribus ist auch, dass die Volltexte beispielsweise das
historische lange "s" als normales rundes "s" ausgeben, während
Tesseract und Calamari es als langes s ausgeben.</p>
<p>Für das Transkribieren und für die Erkennung von Handschrift ist
momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
verwendet neuerdings eine freie Softwarekomponente für die
Erkennung: <a class="moz-txt-link-freetext" href="https://github.com/jpuigcerver/PyLaia">https://github.com/jpuigcerver/PyLaia</a>. PyLaia lässt
sich auch unabhängig von Transkribus verwenden.<br>
</p>
<p>Zum Transkribieren haben wir gute Erfahrungen mit Aletheia
gemacht: <a class="moz-txt-link-freetext" href="https://www.primaresearch.org/tools/Aletheia">https://www.primaresearch.org/tools/Aletheia</a> (leider nur
für Windows). Interessant ist eventuell auch eScriptorium
(<a class="moz-txt-link-freetext" href="https://gitlab.inria.fr/scripta/escriptorium">https://gitlab.inria.fr/scripta/escriptorium</a>), das wir uns auch
noch anschauen möchten.<br>
</p>
<p>Viele Grüße</p>
<p>Stefan Weil<br>
</p>
<p>-- <br>
</p>
<p>
</p>
<pre class="moz-signature" cols="72">Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West | 68131 Mannheim
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: <a class="moz-txt-link-abbreviated" href="mailto:stefan.weil@bib.uni-mannheim.de">stefan.weil@bib.uni-mannheim.de</a>
Web: <a class="moz-txt-link-freetext" href="https://www.bib.uni-mannheim.de/">https://www.bib.uni-mannheim.de/</a></pre>
</body>
</html>