<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html;
      charset=windows-1252">
  </head>
  <body>
    <p>Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:<br>
    </p>
    <blockquote type="cite"
      cite="mid:351bd9ed519e4ed4b4b167b6e95f0125@adk.de">
      <meta name="Generator" content="Microsoft Word 15 (filtered
        medium)">
      <div class="WordSection1">
        <p class="MsoNormal">Liebe Kitodo-Community, <br>
        </p>
        <p class="MsoNormal">wir testen derzeit Software für OCR &
          Transkriptionen, deren Implementierung in unseren zukünftigen
          Digitalisierungsworkflow mit Hilfe von kitodo.pro und
          letztlich deren Präsentation in kitodo.pre.</p>
        <ul type="disc">
          <li class="MsoListParagraph">Bisher gibt es<u> kein</u>
            softwarebasiertes OCR bzw. Transkriptions-Verfahren in der
            AdK für Archivalien, wir testen deshalb derzeit tesseract,
            transkribus und (vermutlich bald) abby.
            <ul type="circle">
              <li class="MsoListParagraph">Anders als in Bibliotheken
                wird unser Digitalisierungs-Output jedoch wesentlich
                geringer sein, wir rechnen mit 3000-5000 Seiten pro
                Jahr, die für OCR/Transkriptionen in Frage kommen.
              </li>
              <li class="MsoListParagraph">Vermutlich auch anders als in
                den meisten Bibliotheken werden in der AdK vor allem
                Handschriften, unterschiedliche Frakturschriften sowie
                existierende Transkriptionen (Word-Dateien…)
                basisbildend sein.</li>
              <li class="MsoListParagraph">„Transkribus“ scheint für
                das, was wir vorhaben und generieren– automatisierbare
                Frakturschrift/Handschrifterkennung, manuelle
                Transkription, GUI für die Bearbeitung, ALTO/TEI-Export
                – zunächst ganz gut geeignet zu sein.
                <ul type="square">
                  <li class="MsoListParagraph">Gibt es Erfahrungen von
                    Ihrer Seite mit der Software, die Sie mit uns teilen
                    könnten bzw. würden?</li>
                </ul>
              </li>
            </ul>
          </li>
          <li class="MsoListParagraph">Da wir im Workflow Anforderungen
            der Editionswissenschaften (z.B. Textauszeichnung,)
            berücksichtigen wollen, möchten wir TEI gegenüber ALTO
            zumindest in bestimmten Projekten im Workflow vorziehen.
            <ul type="circle">
              <li class="MsoListParagraph">Gibt es in der Community
                bereits einen TEI-basierten Workflow für kitodo.pro +
                kitodo.pre?<br>
              </li>
            </ul>
          </li>
        </ul>
      </div>
    </blockquote>
    <p><br>
    </p>
    <p>Lieber Herr Ernst,</p>
    <p>mir ist leider bisher kein Workflow bekannt, der TEI erzeugt,
      auch wenn der Wunsch nach diesem Format schon vor ein paar Jahren
      formuliert wurde
      (<a class="moz-txt-link-freetext" href="https://github.com/UB-Mannheim/ocr-fileformat/issues/12">https://github.com/UB-Mannheim/ocr-fileformat/issues/12</a>, noch
      offen). Vielleicht lässt sich diese (überschaubare) Lücke im
      Rahmen der Implementierungsprojekte von OCR-D schließen. Die
      starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft
      noch).<br>
    </p>
    <p>Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte
      für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns
      (Einstieg hier: <a class="moz-txt-link-freetext" href="https://github.com/tesseract-ocr/tesstrain/wiki">https://github.com/tesseract-ocr/tesstrain/wiki</a>).
      Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur),
      die aber leider nur bedingt geeignet sind, da beide bekannte
      Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.<br>
    </p>
    <p>Auch für Calamari gibt es gute Frakturmodelle:
      <a class="moz-txt-link-freetext" href="https://ocr-d.de/en/models">https://ocr-d.de/en/models</a>,
      <a class="moz-txt-link-freetext" href="https://github.com/chreul/19th-century-fraktur-OCR">https://github.com/chreul/19th-century-fraktur-OCR</a>.</p>
    <p>ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate
      als unsere Modelle (zumindest in unseren Tests). Es berechnet
      dafür – ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY
      und Transkribus ist auch, dass die Volltexte beispielsweise das
      historische lange "s" als normales rundes "s" ausgeben, während
      Tesseract und Calamari es als langes s ausgeben.</p>
    <p>Für das Transkribieren und für die Erkennung von Handschrift ist
      momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
      verwendet neuerdings eine freie Softwarekomponente für die
      Erkennung: <a class="moz-txt-link-freetext" href="https://github.com/jpuigcerver/PyLaia">https://github.com/jpuigcerver/PyLaia</a>. PyLaia lässt
      sich auch unabhängig von Transkribus verwenden.<br>
    </p>
    <p>Zum Transkribieren haben wir gute Erfahrungen mit Aletheia
      gemacht: <a class="moz-txt-link-freetext" href="https://www.primaresearch.org/tools/Aletheia">https://www.primaresearch.org/tools/Aletheia</a> (leider nur
      für Windows). Interessant ist eventuell auch eScriptorium
      (<a class="moz-txt-link-freetext" href="https://gitlab.inria.fr/scripta/escriptorium">https://gitlab.inria.fr/scripta/escriptorium</a>), das wir uns auch
      noch anschauen möchten.<br>
    </p>
    <p>Viele Grüße</p>
    <p>Stefan Weil<br>
    </p>
    <p>-- <br>
    </p>
    <p>
    </p>
    <pre class="moz-signature" cols="72">Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste 

Universität Mannheim
Universitätsbibliothek

Schloss Schneckenhof West | 68131 Mannheim
 
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: <a class="moz-txt-link-abbreviated" href="mailto:stefan.weil@bib.uni-mannheim.de">stefan.weil@bib.uni-mannheim.de</a>
Web: <a class="moz-txt-link-freetext" href="https://www.bib.uni-mannheim.de/">https://www.bib.uni-mannheim.de/</a></pre>
  </body>
</html>