<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html;
      charset=windows-1252">
  </head>
  <body>
    <p>Lieber Herr Ernst,</p>
    <p>wir verwenden bei einigen Projekten Transkribus zum
      Transkribieren und zur Post-Correction von ALTO.<br>
      In einer angepassten Version, die für lokale Arbeiten komplett
      Offline und ohne vorherige Anmeldung bei Transkribus funktioniert
      <br>
(<a class="moz-txt-link-freetext" href="https://github.com/ulb-sachsen-anhalt/TranskribusSwtGui/tree/ulb/master">https://github.com/ulb-sachsen-anhalt/TranskribusSwtGui/tree/ulb/master</a>).</p>
    <p>Der Vorteil für Transkribus ist, dass es Plattformunabhängig ist
      - der Nachteil ist im Handling der Exportformate, insbesondere mit
      ALTO und PAGE. <br>
      Hier ist Transkribus leider etwas veraltet, d.h. es kann z.B.
      aktuell bei ALTO von Haus aus nur mit Version 2 umgehen. <br>
      Zu den Versionsständen bei TEI kann ich leider keine Aussagen
      machen.<br>
    </p>
    <p>Liebe Grüße<br>
      <br>
    </p>
    <div class="moz-cite-prefix">Am 08.12.20 um 18:50 schrieb Stefan
      Weil:<br>
    </div>
    <blockquote type="cite"
      cite="mid:c7c67ad9-0ec6-c002-b488-b0753bc1fcbe@bib.uni-mannheim.de">
      <meta http-equiv="Content-Type" content="text/html;
        charset=windows-1252">
      <p>Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:<br>
      </p>
      <blockquote type="cite"
        cite="mid:351bd9ed519e4ed4b4b167b6e95f0125@adk.de">
        <meta name="Generator" content="Microsoft Word 15 (filtered
          medium)">
        <div class="WordSection1">
          <p class="MsoNormal">Liebe Kitodo-Community, <br>
          </p>
          <p class="MsoNormal">wir testen derzeit Software für OCR &
            Transkriptionen, deren Implementierung in unseren
            zukünftigen Digitalisierungsworkflow mit Hilfe von
            kitodo.pro und letztlich deren Präsentation in kitodo.pre.</p>
          <ul type="disc">
            <li class="MsoListParagraph">Bisher gibt es<u> kein</u>
              softwarebasiertes OCR bzw. Transkriptions-Verfahren in der
              AdK für Archivalien, wir testen deshalb derzeit tesseract,
              transkribus und (vermutlich bald) abby.
              <ul type="circle">
                <li class="MsoListParagraph">Anders als in Bibliotheken
                  wird unser Digitalisierungs-Output jedoch wesentlich
                  geringer sein, wir rechnen mit 3000-5000 Seiten pro
                  Jahr, die für OCR/Transkriptionen in Frage kommen. </li>
                <li class="MsoListParagraph">Vermutlich auch anders als
                  in den meisten Bibliotheken werden in der AdK vor
                  allem Handschriften, unterschiedliche Frakturschriften
                  sowie existierende Transkriptionen (Word-Dateien…)
                  basisbildend sein.</li>
                <li class="MsoListParagraph">„Transkribus“ scheint für
                  das, was wir vorhaben und generieren– automatisierbare
                  Frakturschrift/Handschrifterkennung, manuelle
                  Transkription, GUI für die Bearbeitung,
                  ALTO/TEI-Export – zunächst ganz gut geeignet zu sein.
                  <ul type="square">
                    <li class="MsoListParagraph">Gibt es Erfahrungen von
                      Ihrer Seite mit der Software, die Sie mit uns
                      teilen könnten bzw. würden?</li>
                  </ul>
                </li>
              </ul>
            </li>
            <li class="MsoListParagraph">Da wir im Workflow
              Anforderungen der Editionswissenschaften (z.B.
              Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
              gegenüber ALTO zumindest in bestimmten Projekten im
              Workflow vorziehen.
              <ul type="circle">
                <li class="MsoListParagraph">Gibt es in der Community
                  bereits einen TEI-basierten Workflow für kitodo.pro +
                  kitodo.pre?<br>
                </li>
              </ul>
            </li>
          </ul>
        </div>
      </blockquote>
      <p><br>
      </p>
      <p>Lieber Herr Ernst,</p>
      <p>mir ist leider bisher kein Workflow bekannt, der TEI erzeugt,
        auch wenn der Wunsch nach diesem Format schon vor ein paar
        Jahren formuliert wurde (<a class="moz-txt-link-freetext"
          href="https://github.com/UB-Mannheim/ocr-fileformat/issues/12"
          moz-do-not-send="true">https://github.com/UB-Mannheim/ocr-fileformat/issues/12</a>,
        noch offen). Vielleicht lässt sich diese (überschaubare) Lücke
        im Rahmen der Implementierungsprojekte von OCR-D schließen. Die
        starten im neuen Jahr (das Bewilligungsverfahren bei der DFG
        läuft noch).<br>
      </p>
      <p>Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte
        für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns
        (Einstieg hier: <a class="moz-txt-link-freetext"
          href="https://github.com/tesseract-ocr/tesstrain/wiki"
          moz-do-not-send="true">https://github.com/tesseract-ocr/tesstrain/wiki</a>).
        Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur),
        die aber leider nur bedingt geeignet sind, da beide bekannte
        Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.<br>
      </p>
      <p>Auch für Calamari gibt es gute Frakturmodelle: <a
          class="moz-txt-link-freetext"
          href="https://ocr-d.de/en/models" moz-do-not-send="true">https://ocr-d.de/en/models</a>,
        <a class="moz-txt-link-freetext"
          href="https://github.com/chreul/19th-century-fraktur-OCR"
          moz-do-not-send="true">https://github.com/chreul/19th-century-fraktur-OCR</a>.</p>
      <p>ABBYY erkennt Fraktur, aber mit etwas schlechterer
        Erkennungsrate als unsere Modelle (zumindest in unseren Tests).
        Es berechnet dafür – ebenso wie Transkribus – Seitenpreise.
        Typisch für ABBYY und Transkribus ist auch, dass die Volltexte
        beispielsweise das historische lange "s" als normales rundes "s"
        ausgeben, während Tesseract und Calamari es als langes s
        ausgeben.</p>
      <p>Für das Transkribieren und für die Erkennung von Handschrift
        ist momentan wahrscheinlich Transkribus am verbreitesten.
        Transkribus verwendet neuerdings eine freie Softwarekomponente
        für die Erkennung: <a class="moz-txt-link-freetext"
          href="https://github.com/jpuigcerver/PyLaia"
          moz-do-not-send="true">https://github.com/jpuigcerver/PyLaia</a>.
        PyLaia lässt sich auch unabhängig von Transkribus verwenden.<br>
      </p>
      <p>Zum Transkribieren haben wir gute Erfahrungen mit Aletheia
        gemacht: <a class="moz-txt-link-freetext"
          href="https://www.primaresearch.org/tools/Aletheia"
          moz-do-not-send="true">https://www.primaresearch.org/tools/Aletheia</a>
        (leider nur für Windows). Interessant ist eventuell auch
        eScriptorium (<a class="moz-txt-link-freetext"
          href="https://gitlab.inria.fr/scripta/escriptorium"
          moz-do-not-send="true">https://gitlab.inria.fr/scripta/escriptorium</a>),
        das wir uns auch noch anschauen möchten.<br>
      </p>
      <p>Viele Grüße</p>
      <p>Stefan Weil<br>
      </p>
      <p>-- <br>
      </p>
      <p> </p>
      <pre class="moz-signature" cols="72">Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste 

Universität Mannheim
Universitätsbibliothek

Schloss Schneckenhof West | 68131 Mannheim
 
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: <a class="moz-txt-link-abbreviated" href="mailto:stefan.weil@bib.uni-mannheim.de" moz-do-not-send="true">stefan.weil@bib.uni-mannheim.de</a>
Web: <a class="moz-txt-link-freetext" href="https://www.bib.uni-mannheim.de/" moz-do-not-send="true">https://www.bib.uni-mannheim.de/</a></pre>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <pre class="moz-quote-pre" wrap="">_______________________________________________
Kitodo-Community mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Kitodo-Community@kitodo.org">Kitodo-Community@kitodo.org</a>
<a class="moz-txt-link-freetext" href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a>
</pre>
    </blockquote>
    <pre class="moz-signature" cols="72">-- 
Uwe Hartwig
Anwendungsentwickler IT / Digitale Dienste

Universitäts- und Landesbibliothek Sachsen-Anhalt
August-Bebel-Straße 13
D - 06108 Halle (Saale)

Fon: + 49 345 55 22 183
Mail: <a class="moz-txt-link-abbreviated" href="mailto:uwe.hartwig@bibliothek.uni-halle.de">uwe.hartwig@bibliothek.uni-halle.de</a></pre>
  </body>
</html>