<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
{font-family:Wingdings;
panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
{font-family:Consolas;
panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin:0cm;
font-size:11.0pt;
font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
{mso-style-priority:99;
color:blue;
text-decoration:underline;}
pre
{mso-style-priority:99;
mso-style-link:"HTML Vorformatiert Zchn";
margin:0cm;
font-size:10.0pt;
font-family:"Courier New";}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
{mso-style-priority:34;
mso-margin-top-alt:auto;
margin-right:0cm;
mso-margin-bottom-alt:auto;
margin-left:0cm;
font-size:11.0pt;
font-family:"Calibri",sans-serif;}
span.HTMLVorformatiertZchn
{mso-style-name:"HTML Vorformatiert Zchn";
mso-style-priority:99;
mso-style-link:"HTML Vorformatiert";
font-family:"Consolas",serif;}
span.E-MailFormatvorlage22
{mso-style-type:personal-reply;
font-family:"Calibri",sans-serif;
color:windowtext;}
.MsoChpDefault
{mso-style-type:export-only;
font-size:10.0pt;}
@page WordSection1
{size:612.0pt 792.0pt;
margin:70.85pt 70.85pt 2.0cm 70.85pt;}
div.WordSection1
{page:WordSection1;}
/* List Definitions */
@list l0
{mso-list-id:1452748600;
mso-list-template-ids:1134847608;}
@list l0:level1
{mso-level-number-format:bullet;
mso-level-text:\F0B7;
mso-level-tab-stop:36.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Symbol;}
@list l0:level2
{mso-level-number-format:bullet;
mso-level-text:o;
mso-level-tab-stop:72.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:"Courier New";
mso-bidi-font-family:"Times New Roman";}
@list l0:level3
{mso-level-number-format:bullet;
mso-level-text:\F0A7;
mso-level-tab-stop:108.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Wingdings;}
@list l0:level4
{mso-level-number-format:bullet;
mso-level-text:\F0B7;
mso-level-tab-stop:144.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Symbol;}
@list l0:level5
{mso-level-number-format:bullet;
mso-level-text:\F0B7;
mso-level-tab-stop:180.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Symbol;}
@list l0:level6
{mso-level-number-format:bullet;
mso-level-text:\F0B7;
mso-level-tab-stop:216.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Symbol;}
@list l0:level7
{mso-level-number-format:bullet;
mso-level-text:\F0B7;
mso-level-tab-stop:252.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Symbol;}
@list l0:level8
{mso-level-number-format:bullet;
mso-level-text:\F0B7;
mso-level-tab-stop:288.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Symbol;}
@list l0:level9
{mso-level-number-format:bullet;
mso-level-text:\F0B7;
mso-level-tab-stop:324.0pt;
mso-level-number-position:left;
text-indent:-18.0pt;
mso-ansi-font-size:10.0pt;
font-family:Symbol;}
ol
{margin-bottom:0cm;}
ul
{margin-bottom:0cm;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="DE" link="blue" vlink="purple" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal"><span style="mso-fareast-language:EN-US">Liebe Kolleg*innen,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US">zumindest zur Frage der TEI-Generierung kann ich beitragen, dass der Kollege Kay-Michael Würzner eine Konversion von METS/MODS nach TEI entwickelt hat, die wir aktuell an der SLUB im Zusammenspiel
mit Kitodo testen und perspektivisch als festen Bestandteil in unsere Workflows integrieren wollen. Die Konversion basiert auf den von Kitodo erzeugten METS/MODS-Dateien, extrahiert daraus Struktur- und Metadaten und berücksichtigt auch vorhandene ALTO-Volltexte.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US">Die Konversion findet sich auf GitHub:
<a href="https://github.com/slub/mets-mods2tei">https://github.com/slub/mets-mods2tei</a><o:p></o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US">Viele Grüße<o:p></o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US">Sebastian Meyer<o:p></o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b>Von:</b> kitodo-community-bounces@kitodo.org <kitodo-community-bounces@kitodo.org>
<b>Im Auftrag von </b>Stefan Weil<br>
<b>Gesendet:</b> Dienstag, 8. Dezember 2020 18:50<br>
<b>An:</b> kitodo-community@kitodo.org; Ernst, Volkmar <ernst@adk.de><br>
<b>Betreff:</b> Re: [Kitodo] Transkriptionssoftware + TEI in kitodo.production und .presentation<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p>Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:<o:p></o:p></p>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Liebe Kitodo-Community,
<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">wir testen derzeit Software für OCR & Transkriptionen, deren Implementierung in unseren zukünftigen Digitalisierungsworkflow mit Hilfe von kitodo.pro und letztlich deren Präsentation
in kitodo.pre.<o:p></o:p></p>
<ul type="disc">
<li class="MsoListParagraph" style="mso-list:l0 level1 lfo1">Bisher gibt es<u> kein</u> softwarebasiertes OCR bzw. Transkriptions-Verfahren in der AdK für Archivalien, wir testen deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
<o:p></o:p></li></ul>
<ul type="disc">
<ul type="circle">
<li class="MsoListParagraph" style="mso-list:l0 level2 lfo1">Anders als in Bibliotheken wird unser Digitalisierungs-Output jedoch wesentlich geringer sein, wir rechnen mit 3000-5000 Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
<o:p></o:p></li><li class="MsoListParagraph" style="mso-list:l0 level2 lfo1">Vermutlich auch anders als in den meisten Bibliotheken werden in der AdK vor allem Handschriften, unterschiedliche Frakturschriften sowie existierende Transkriptionen (Word-Dateien…) basisbildend
sein.<o:p></o:p></li><li class="MsoListParagraph" style="mso-list:l0 level2 lfo1">„Transkribus“ scheint für das, was wir vorhaben und generieren– automatisierbare Frakturschrift/Handschrifterkennung, manuelle Transkription, GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz
gut geeignet zu sein. <o:p></o:p></li></ul>
</ul>
<ul type="disc">
<ul type="circle">
<ul type="square">
<li class="MsoListParagraph" style="mso-list:l0 level3 lfo1">Gibt es Erfahrungen von Ihrer Seite mit der Software, die Sie mit uns teilen könnten bzw. würden?<o:p></o:p></li></ul>
</ul>
</ul>
<ul type="disc">
<li class="MsoListParagraph" style="mso-list:l0 level1 lfo1">Da wir im Workflow Anforderungen der Editionswissenschaften (z.B. Textauszeichnung,) berücksichtigen wollen, möchten wir TEI gegenüber ALTO zumindest in bestimmten Projekten im Workflow vorziehen.
<o:p></o:p></li></ul>
<ul type="disc">
<ul type="circle">
<li class="MsoListParagraph" style="mso-list:l0 level2 lfo1">Gibt es in der Community bereits einen TEI-basierten Workflow für kitodo.pro + kitodo.pre?<o:p></o:p></li></ul>
</ul>
</div>
</blockquote>
<p><o:p> </o:p></p>
<p>Lieber Herr Ernst,<o:p></o:p></p>
<p>mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn der Wunsch nach diesem Format schon vor ein paar Jahren formuliert wurde (<a href="https://github.com/UB-Mannheim/ocr-fileformat/issues/12">https://github.com/UB-Mannheim/ocr-fileformat/issues/12</a>,
noch offen). Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der Implementierungsprojekte von OCR-D schließen. Die starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft noch).<o:p></o:p></p>
<p>Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg hier:
<a href="https://github.com/tesseract-ocr/tesstrain/wiki">https://github.com/tesseract-ocr/tesstrain/wiki</a>). Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur bedingt geeignet sind, da beide bekannte Schwächen beispielsweise
mit ch- und ck-Ligaturen aufweisen.<o:p></o:p></p>
<p>Auch für Calamari gibt es gute Frakturmodelle: <a href="https://ocr-d.de/en/models">
https://ocr-d.de/en/models</a>, <a href="https://github.com/chreul/19th-century-fraktur-OCR">
https://github.com/chreul/19th-century-fraktur-OCR</a>.<o:p></o:p></p>
<p>ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist auch, dass die Volltexte beispielsweise das
historische lange "s" als normales rundes "s" ausgeben, während Tesseract und Calamari es als langes s ausgeben.<o:p></o:p></p>
<p>Für das Transkribieren und für die Erkennung von Handschrift ist momentan wahrscheinlich Transkribus am verbreitesten. Transkribus verwendet neuerdings eine freie Softwarekomponente für die Erkennung:
<a href="https://github.com/jpuigcerver/PyLaia">https://github.com/jpuigcerver/PyLaia</a>. PyLaia lässt sich auch unabhängig von Transkribus verwenden.<o:p></o:p></p>
<p>Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht: <a href="https://www.primaresearch.org/tools/Aletheia">
https://www.primaresearch.org/tools/Aletheia</a> (leider nur für Windows). Interessant ist eventuell auch eScriptorium (<a href="https://gitlab.inria.fr/scripta/escriptorium">https://gitlab.inria.fr/scripta/escriptorium</a>), das wir uns auch noch anschauen
möchten.<o:p></o:p></p>
<p>Viele Grüße<o:p></o:p></p>
<p>Stefan Weil<o:p></o:p></p>
<p>-- <o:p></o:p></p>
<pre>Stefan Weil<o:p></o:p></pre>
<pre>Abteilungsleiter Digitale Bibliotheksdienste <o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Universität Mannheim<o:p></o:p></pre>
<pre>Universitätsbibliothek<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Schloss Schneckenhof West | 68131 Mannheim<o:p></o:p></pre>
<pre> <o:p></o:p></pre>
<pre>Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)<o:p></o:p></pre>
<pre>Fax: +49 621 181-2960<o:p></o:p></pre>
<pre>E-Mail: <a href="mailto:stefan.weil@bib.uni-mannheim.de">stefan.weil@bib.uni-mannheim.de</a><o:p></o:p></pre>
<pre>Web: <a href="https://www.bib.uni-mannheim.de/">https://www.bib.uni-mannheim.de/</a><o:p></o:p></pre>
</div>
</body>
</html>