<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html;

      charset=windows-1252">

  </head>

  <body>

    <p>Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:<br>

    </p>

    <blockquote type="cite"

      cite="mid:351bd9ed519e4ed4b4b167b6e95f0125@adk.de">

      <meta name="Generator" content="Microsoft Word 15 (filtered

        medium)">

      <div class="WordSection1">

        <p class="MsoNormal">Liebe Kitodo-Community, <br>

        </p>

        <p class="MsoNormal">wir testen derzeit Software für OCR &

          Transkriptionen, deren Implementierung in unseren zukünftigen

          Digitalisierungsworkflow mit Hilfe von kitodo.pro und

          letztlich deren Präsentation in kitodo.pre.</p>

        <ul type="disc">

          <li class="MsoListParagraph">Bisher gibt es<u> kein</u>

            softwarebasiertes OCR bzw. Transkriptions-Verfahren in der

            AdK für Archivalien, wir testen deshalb derzeit tesseract,

            transkribus und (vermutlich bald) abby.

            <ul type="circle">

              <li class="MsoListParagraph">Anders als in Bibliotheken

                wird unser Digitalisierungs-Output jedoch wesentlich

                geringer sein, wir rechnen mit 3000-5000 Seiten pro

                Jahr, die für OCR/Transkriptionen in Frage kommen.

              </li>

              <li class="MsoListParagraph">Vermutlich auch anders als in

                den meisten Bibliotheken werden in der AdK vor allem

                Handschriften, unterschiedliche Frakturschriften sowie

                existierende Transkriptionen (Word-Dateien…)

                basisbildend sein.</li>

              <li class="MsoListParagraph">„Transkribus“ scheint für

                das, was wir vorhaben und generieren– automatisierbare

                Frakturschrift/Handschrifterkennung, manuelle

                Transkription, GUI für die Bearbeitung, ALTO/TEI-Export

                – zunächst ganz gut geeignet zu sein.

                <ul type="square">

                  <li class="MsoListParagraph">Gibt es Erfahrungen von

                    Ihrer Seite mit der Software, die Sie mit uns teilen

                    könnten bzw. würden?</li>

                </ul>

              </li>

            </ul>

          </li>

          <li class="MsoListParagraph">Da wir im Workflow Anforderungen

            der Editionswissenschaften (z.B. Textauszeichnung,)

            berücksichtigen wollen, möchten wir TEI gegenüber ALTO

            zumindest in bestimmten Projekten im Workflow vorziehen.

            <ul type="circle">

              <li class="MsoListParagraph">Gibt es in der Community

                bereits einen TEI-basierten Workflow für kitodo.pro +

                kitodo.pre?<br>

              </li>

            </ul>

          </li>

        </ul>

      </div>

    </blockquote>

    <p><br>

    </p>

    <p>Lieber Herr Ernst,</p>

    <p>mir ist leider bisher kein Workflow bekannt, der TEI erzeugt,

      auch wenn der Wunsch nach diesem Format schon vor ein paar Jahren

      formuliert wurde

      (<a class="moz-txt-link-freetext" href="https://github.com/UB-Mannheim/ocr-fileformat/issues/12">https://github.com/UB-Mannheim/ocr-fileformat/issues/12</a>, noch

      offen). Vielleicht lässt sich diese (überschaubare) Lücke im

      Rahmen der Implementierungsprojekte von OCR-D schließen. Die

      starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft

      noch).<br>

    </p>

    <p>Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte

      für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns

      (Einstieg hier: <a class="moz-txt-link-freetext" href="https://github.com/tesseract-ocr/tesstrain/wiki">https://github.com/tesseract-ocr/tesstrain/wiki</a>).

      Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur),

      die aber leider nur bedingt geeignet sind, da beide bekannte

      Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.<br>

    </p>

    <p>Auch für Calamari gibt es gute Frakturmodelle:

      <a class="moz-txt-link-freetext" href="https://ocr-d.de/en/models">https://ocr-d.de/en/models</a>,

      <a class="moz-txt-link-freetext" href="https://github.com/chreul/19th-century-fraktur-OCR">https://github.com/chreul/19th-century-fraktur-OCR</a>.</p>

    <p>ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate

      als unsere Modelle (zumindest in unseren Tests). Es berechnet

      dafür – ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY

      und Transkribus ist auch, dass die Volltexte beispielsweise das

      historische lange "s" als normales rundes "s" ausgeben, während

      Tesseract und Calamari es als langes s ausgeben.</p>

    <p>Für das Transkribieren und für die Erkennung von Handschrift ist

      momentan wahrscheinlich Transkribus am verbreitesten. Transkribus

      verwendet neuerdings eine freie Softwarekomponente für die

      Erkennung: <a class="moz-txt-link-freetext" href="https://github.com/jpuigcerver/PyLaia">https://github.com/jpuigcerver/PyLaia</a>. PyLaia lässt

      sich auch unabhängig von Transkribus verwenden.<br>

    </p>

    <p>Zum Transkribieren haben wir gute Erfahrungen mit Aletheia

      gemacht: <a class="moz-txt-link-freetext" href="https://www.primaresearch.org/tools/Aletheia">https://www.primaresearch.org/tools/Aletheia</a> (leider nur

      für Windows). Interessant ist eventuell auch eScriptorium

      (<a class="moz-txt-link-freetext" href="https://gitlab.inria.fr/scripta/escriptorium">https://gitlab.inria.fr/scripta/escriptorium</a>), das wir uns auch

      noch anschauen möchten.<br>

    </p>

    <p>Viele Grüße</p>

    <p>Stefan Weil<br>

    </p>

    <p>-- <br>

    </p>

    <p>

    </p>

    <pre class="moz-signature" cols="72">Stefan Weil

Abteilungsleiter Digitale Bibliotheksdienste 

Universität Mannheim

Universitätsbibliothek

Schloss Schneckenhof West | 68131 Mannheim

Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)

Fax: +49 621 181-2960

E-Mail: <a class="moz-txt-link-abbreviated" href="mailto:stefan.weil@bib.uni-mannheim.de">stefan.weil@bib.uni-mannheim.de</a>

Web: <a class="moz-txt-link-freetext" href="https://www.bib.uni-mannheim.de/">https://www.bib.uni-mannheim.de/</a></pre>

  </body>

</html>