<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html;

      charset=windows-1252">

  </head>

  <body>

    <p>Lieber Herr Ernst,</p>

    <p>wir verwenden bei einigen Projekten Transkribus zum

      Transkribieren und zur Post-Correction von ALTO.<br>

      In einer angepassten Version, die für lokale Arbeiten komplett

      Offline und ohne vorherige Anmeldung bei Transkribus funktioniert

      <br>

(<a class="moz-txt-link-freetext" href="https://github.com/ulb-sachsen-anhalt/TranskribusSwtGui/tree/ulb/master">https://github.com/ulb-sachsen-anhalt/TranskribusSwtGui/tree/ulb/master</a>).</p>

    <p>Der Vorteil für Transkribus ist, dass es Plattformunabhängig ist

      - der Nachteil ist im Handling der Exportformate, insbesondere mit

      ALTO und PAGE. <br>

      Hier ist Transkribus leider etwas veraltet, d.h. es kann z.B.

      aktuell bei ALTO von Haus aus nur mit Version 2 umgehen. <br>

      Zu den Versionsständen bei TEI kann ich leider keine Aussagen

      machen.<br>

    </p>

    <p>Liebe Grüße<br>

      <br>

    </p>

    <div class="moz-cite-prefix">Am 08.12.20 um 18:50 schrieb Stefan

      Weil:<br>

    </div>

    <blockquote type="cite"

      cite="mid:c7c67ad9-0ec6-c002-b488-b0753bc1fcbe@bib.uni-mannheim.de">

      <meta http-equiv="Content-Type" content="text/html;

        charset=windows-1252">

      <p>Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:<br>

      </p>

      <blockquote type="cite"

        cite="mid:351bd9ed519e4ed4b4b167b6e95f0125@adk.de">

        <meta name="Generator" content="Microsoft Word 15 (filtered

          medium)">

        <div class="WordSection1">

          <p class="MsoNormal">Liebe Kitodo-Community, <br>

          </p>

          <p class="MsoNormal">wir testen derzeit Software für OCR &

            Transkriptionen, deren Implementierung in unseren

            zukünftigen Digitalisierungsworkflow mit Hilfe von

            kitodo.pro und letztlich deren Präsentation in kitodo.pre.</p>

          <ul type="disc">

            <li class="MsoListParagraph">Bisher gibt es<u> kein</u>

              softwarebasiertes OCR bzw. Transkriptions-Verfahren in der

              AdK für Archivalien, wir testen deshalb derzeit tesseract,

              transkribus und (vermutlich bald) abby.

              <ul type="circle">

                <li class="MsoListParagraph">Anders als in Bibliotheken

                  wird unser Digitalisierungs-Output jedoch wesentlich

                  geringer sein, wir rechnen mit 3000-5000 Seiten pro

                  Jahr, die für OCR/Transkriptionen in Frage kommen. </li>

                <li class="MsoListParagraph">Vermutlich auch anders als

                  in den meisten Bibliotheken werden in der AdK vor

                  allem Handschriften, unterschiedliche Frakturschriften

                  sowie existierende Transkriptionen (Word-Dateien…)

                  basisbildend sein.</li>

                <li class="MsoListParagraph">„Transkribus“ scheint für

                  das, was wir vorhaben und generieren– automatisierbare

                  Frakturschrift/Handschrifterkennung, manuelle

                  Transkription, GUI für die Bearbeitung,

                  ALTO/TEI-Export – zunächst ganz gut geeignet zu sein.

                  <ul type="square">

                    <li class="MsoListParagraph">Gibt es Erfahrungen von

                      Ihrer Seite mit der Software, die Sie mit uns

                      teilen könnten bzw. würden?</li>

                  </ul>

                </li>

              </ul>

            </li>

            <li class="MsoListParagraph">Da wir im Workflow

              Anforderungen der Editionswissenschaften (z.B.

              Textauszeichnung,) berücksichtigen wollen, möchten wir TEI

              gegenüber ALTO zumindest in bestimmten Projekten im

              Workflow vorziehen.

              <ul type="circle">

                <li class="MsoListParagraph">Gibt es in der Community

                  bereits einen TEI-basierten Workflow für kitodo.pro +

                  kitodo.pre?<br>

                </li>

              </ul>

            </li>

          </ul>

        </div>

      </blockquote>

      <p><br>

      </p>

      <p>Lieber Herr Ernst,</p>

      <p>mir ist leider bisher kein Workflow bekannt, der TEI erzeugt,

        auch wenn der Wunsch nach diesem Format schon vor ein paar

        Jahren formuliert wurde (<a class="moz-txt-link-freetext"

          href="https://github.com/UB-Mannheim/ocr-fileformat/issues/12"

          moz-do-not-send="true">https://github.com/UB-Mannheim/ocr-fileformat/issues/12</a>,

        noch offen). Vielleicht lässt sich diese (überschaubare) Lücke

        im Rahmen der Implementierungsprojekte von OCR-D schließen. Die

        starten im neuen Jahr (das Bewilligungsverfahren bei der DFG

        läuft noch).<br>

      </p>

      <p>Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte

        für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns

        (Einstieg hier: <a class="moz-txt-link-freetext"

          href="https://github.com/tesseract-ocr/tesstrain/wiki"

          moz-do-not-send="true">https://github.com/tesseract-ocr/tesstrain/wiki</a>).

        Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur),

        die aber leider nur bedingt geeignet sind, da beide bekannte

        Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.<br>

      </p>

      <p>Auch für Calamari gibt es gute Frakturmodelle: <a

          class="moz-txt-link-freetext"

          href="https://ocr-d.de/en/models" moz-do-not-send="true">https://ocr-d.de/en/models</a>,

        <a class="moz-txt-link-freetext"

          href="https://github.com/chreul/19th-century-fraktur-OCR"

          moz-do-not-send="true">https://github.com/chreul/19th-century-fraktur-OCR</a>.</p>

      <p>ABBYY erkennt Fraktur, aber mit etwas schlechterer

        Erkennungsrate als unsere Modelle (zumindest in unseren Tests).

        Es berechnet dafür – ebenso wie Transkribus – Seitenpreise.

        Typisch für ABBYY und Transkribus ist auch, dass die Volltexte

        beispielsweise das historische lange "s" als normales rundes "s"

        ausgeben, während Tesseract und Calamari es als langes s

        ausgeben.</p>

      <p>Für das Transkribieren und für die Erkennung von Handschrift

        ist momentan wahrscheinlich Transkribus am verbreitesten.

        Transkribus verwendet neuerdings eine freie Softwarekomponente

        für die Erkennung: <a class="moz-txt-link-freetext"

          href="https://github.com/jpuigcerver/PyLaia"

          moz-do-not-send="true">https://github.com/jpuigcerver/PyLaia</a>.

        PyLaia lässt sich auch unabhängig von Transkribus verwenden.<br>

      </p>

      <p>Zum Transkribieren haben wir gute Erfahrungen mit Aletheia

        gemacht: <a class="moz-txt-link-freetext"

          href="https://www.primaresearch.org/tools/Aletheia"

          moz-do-not-send="true">https://www.primaresearch.org/tools/Aletheia</a>

        (leider nur für Windows). Interessant ist eventuell auch

        eScriptorium (<a class="moz-txt-link-freetext"

          href="https://gitlab.inria.fr/scripta/escriptorium"

          moz-do-not-send="true">https://gitlab.inria.fr/scripta/escriptorium</a>),

        das wir uns auch noch anschauen möchten.<br>

      </p>

      <p>Viele Grüße</p>

      <p>Stefan Weil<br>

      </p>

      <p>-- <br>

      </p>

      <p> </p>

      <pre class="moz-signature" cols="72">Stefan Weil

Abteilungsleiter Digitale Bibliotheksdienste 

Universität Mannheim

Universitätsbibliothek

Schloss Schneckenhof West | 68131 Mannheim

Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)

Fax: +49 621 181-2960

E-Mail: <a class="moz-txt-link-abbreviated" href="mailto:stefan.weil@bib.uni-mannheim.de" moz-do-not-send="true">stefan.weil@bib.uni-mannheim.de</a>

Web: <a class="moz-txt-link-freetext" href="https://www.bib.uni-mannheim.de/" moz-do-not-send="true">https://www.bib.uni-mannheim.de/</a></pre>

      <br>

      <fieldset class="mimeAttachmentHeader"></fieldset>

      <pre class="moz-quote-pre" wrap="">_______________________________________________

Kitodo-Community mailing list

<a class="moz-txt-link-abbreviated" href="mailto:Kitodo-Community@kitodo.org">Kitodo-Community@kitodo.org</a>

<a class="moz-txt-link-freetext" href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a>

</pre>

    </blockquote>

    <pre class="moz-signature" cols="72">-- 

Uwe Hartwig

Anwendungsentwickler IT / Digitale Dienste

Universitäts- und Landesbibliothek Sachsen-Anhalt

August-Bebel-Straße 13

D - 06108 Halle (Saale)

Fon: + 49 345 55 22 183

Mail: <a class="moz-txt-link-abbreviated" href="mailto:uwe.hartwig@bibliothek.uni-halle.de">uwe.hartwig@bibliothek.uni-halle.de</a></pre>

  </body>

</html>