<html>
<head>
<meta http-equiv="Content-Type" content="text/html;
charset=windows-1252">
</head>
<body>
<p>Lieber Herr Ernst,</p>
<p>wir verwenden bei einigen Projekten Transkribus zum
Transkribieren und zur Post-Correction von ALTO.<br>
In einer angepassten Version, die für lokale Arbeiten komplett
Offline und ohne vorherige Anmeldung bei Transkribus funktioniert
<br>
(<a class="moz-txt-link-freetext" href="https://github.com/ulb-sachsen-anhalt/TranskribusSwtGui/tree/ulb/master">https://github.com/ulb-sachsen-anhalt/TranskribusSwtGui/tree/ulb/master</a>).</p>
<p>Der Vorteil für Transkribus ist, dass es Plattformunabhängig ist
- der Nachteil ist im Handling der Exportformate, insbesondere mit
ALTO und PAGE. <br>
Hier ist Transkribus leider etwas veraltet, d.h. es kann z.B.
aktuell bei ALTO von Haus aus nur mit Version 2 umgehen. <br>
Zu den Versionsständen bei TEI kann ich leider keine Aussagen
machen.<br>
</p>
<p>Liebe Grüße<br>
<br>
</p>
<div class="moz-cite-prefix">Am 08.12.20 um 18:50 schrieb Stefan
Weil:<br>
</div>
<blockquote type="cite"
cite="mid:c7c67ad9-0ec6-c002-b488-b0753bc1fcbe@bib.uni-mannheim.de">
<meta http-equiv="Content-Type" content="text/html;
charset=windows-1252">
<p>Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:<br>
</p>
<blockquote type="cite"
cite="mid:351bd9ed519e4ed4b4b167b6e95f0125@adk.de">
<meta name="Generator" content="Microsoft Word 15 (filtered
medium)">
<div class="WordSection1">
<p class="MsoNormal">Liebe Kitodo-Community, <br>
</p>
<p class="MsoNormal">wir testen derzeit Software für OCR &
Transkriptionen, deren Implementierung in unseren
zukünftigen Digitalisierungsworkflow mit Hilfe von
kitodo.pro und letztlich deren Präsentation in kitodo.pre.</p>
<ul type="disc">
<li class="MsoListParagraph">Bisher gibt es<u> kein</u>
softwarebasiertes OCR bzw. Transkriptions-Verfahren in der
AdK für Archivalien, wir testen deshalb derzeit tesseract,
transkribus und (vermutlich bald) abby.
<ul type="circle">
<li class="MsoListParagraph">Anders als in Bibliotheken
wird unser Digitalisierungs-Output jedoch wesentlich
geringer sein, wir rechnen mit 3000-5000 Seiten pro
Jahr, die für OCR/Transkriptionen in Frage kommen. </li>
<li class="MsoListParagraph">Vermutlich auch anders als
in den meisten Bibliotheken werden in der AdK vor
allem Handschriften, unterschiedliche Frakturschriften
sowie existierende Transkriptionen (Word-Dateien…)
basisbildend sein.</li>
<li class="MsoListParagraph">„Transkribus“ scheint für
das, was wir vorhaben und generieren– automatisierbare
Frakturschrift/Handschrifterkennung, manuelle
Transkription, GUI für die Bearbeitung,
ALTO/TEI-Export – zunächst ganz gut geeignet zu sein.
<ul type="square">
<li class="MsoListParagraph">Gibt es Erfahrungen von
Ihrer Seite mit der Software, die Sie mit uns
teilen könnten bzw. würden?</li>
</ul>
</li>
</ul>
</li>
<li class="MsoListParagraph">Da wir im Workflow
Anforderungen der Editionswissenschaften (z.B.
Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
gegenüber ALTO zumindest in bestimmten Projekten im
Workflow vorziehen.
<ul type="circle">
<li class="MsoListParagraph">Gibt es in der Community
bereits einen TEI-basierten Workflow für kitodo.pro +
kitodo.pre?<br>
</li>
</ul>
</li>
</ul>
</div>
</blockquote>
<p><br>
</p>
<p>Lieber Herr Ernst,</p>
<p>mir ist leider bisher kein Workflow bekannt, der TEI erzeugt,
auch wenn der Wunsch nach diesem Format schon vor ein paar
Jahren formuliert wurde (<a class="moz-txt-link-freetext"
href="https://github.com/UB-Mannheim/ocr-fileformat/issues/12"
moz-do-not-send="true">https://github.com/UB-Mannheim/ocr-fileformat/issues/12</a>,
noch offen). Vielleicht lässt sich diese (überschaubare) Lücke
im Rahmen der Implementierungsprojekte von OCR-D schließen. Die
starten im neuen Jahr (das Bewilligungsverfahren bei der DFG
läuft noch).<br>
</p>
<p>Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte
für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns
(Einstieg hier: <a class="moz-txt-link-freetext"
href="https://github.com/tesseract-ocr/tesstrain/wiki"
moz-do-not-send="true">https://github.com/tesseract-ocr/tesstrain/wiki</a>).
Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur),
die aber leider nur bedingt geeignet sind, da beide bekannte
Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.<br>
</p>
<p>Auch für Calamari gibt es gute Frakturmodelle: <a
class="moz-txt-link-freetext"
href="https://ocr-d.de/en/models" moz-do-not-send="true">https://ocr-d.de/en/models</a>,
<a class="moz-txt-link-freetext"
href="https://github.com/chreul/19th-century-fraktur-OCR"
moz-do-not-send="true">https://github.com/chreul/19th-century-fraktur-OCR</a>.</p>
<p>ABBYY erkennt Fraktur, aber mit etwas schlechterer
Erkennungsrate als unsere Modelle (zumindest in unseren Tests).
Es berechnet dafür – ebenso wie Transkribus – Seitenpreise.
Typisch für ABBYY und Transkribus ist auch, dass die Volltexte
beispielsweise das historische lange "s" als normales rundes "s"
ausgeben, während Tesseract und Calamari es als langes s
ausgeben.</p>
<p>Für das Transkribieren und für die Erkennung von Handschrift
ist momentan wahrscheinlich Transkribus am verbreitesten.
Transkribus verwendet neuerdings eine freie Softwarekomponente
für die Erkennung: <a class="moz-txt-link-freetext"
href="https://github.com/jpuigcerver/PyLaia"
moz-do-not-send="true">https://github.com/jpuigcerver/PyLaia</a>.
PyLaia lässt sich auch unabhängig von Transkribus verwenden.<br>
</p>
<p>Zum Transkribieren haben wir gute Erfahrungen mit Aletheia
gemacht: <a class="moz-txt-link-freetext"
href="https://www.primaresearch.org/tools/Aletheia"
moz-do-not-send="true">https://www.primaresearch.org/tools/Aletheia</a>
(leider nur für Windows). Interessant ist eventuell auch
eScriptorium (<a class="moz-txt-link-freetext"
href="https://gitlab.inria.fr/scripta/escriptorium"
moz-do-not-send="true">https://gitlab.inria.fr/scripta/escriptorium</a>),
das wir uns auch noch anschauen möchten.<br>
</p>
<p>Viele Grüße</p>
<p>Stefan Weil<br>
</p>
<p>-- <br>
</p>
<p> </p>
<pre class="moz-signature" cols="72">Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West | 68131 Mannheim
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: <a class="moz-txt-link-abbreviated" href="mailto:stefan.weil@bib.uni-mannheim.de" moz-do-not-send="true">stefan.weil@bib.uni-mannheim.de</a>
Web: <a class="moz-txt-link-freetext" href="https://www.bib.uni-mannheim.de/" moz-do-not-send="true">https://www.bib.uni-mannheim.de/</a></pre>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<pre class="moz-quote-pre" wrap="">_______________________________________________
Kitodo-Community mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Kitodo-Community@kitodo.org">Kitodo-Community@kitodo.org</a>
<a class="moz-txt-link-freetext" href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a>
</pre>
</blockquote>
<pre class="moz-signature" cols="72">--
Uwe Hartwig
Anwendungsentwickler IT / Digitale Dienste
Universitäts- und Landesbibliothek Sachsen-Anhalt
August-Bebel-Straße 13
D - 06108 Halle (Saale)
Fon: + 49 345 55 22 183
Mail: <a class="moz-txt-link-abbreviated" href="mailto:uwe.hartwig@bibliothek.uni-halle.de">uwe.hartwig@bibliothek.uni-halle.de</a></pre>
</body>
</html>