[Kitodo] Transkriptionssoftware + TEI in kitodo.production und .presentation

Stefan Weil stefan.weil at bib.uni-mannheim.de
Di Dez 8 18:50:12 CET 2020


Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:

> Liebe Kitodo-Community,
>
> wir testen derzeit Software für OCR & Transkriptionen, deren 
> Implementierung in unseren zukünftigen Digitalisierungsworkflow mit 
> Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.
>
>   * Bisher gibt es_kein_ softwarebasiertes OCR bzw.
>     Transkriptions-Verfahren in der AdK für Archivalien, wir testen
>     deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
>       o Anders als in Bibliotheken wird unser Digitalisierungs-Output
>         jedoch wesentlich geringer sein, wir rechnen mit 3000-5000
>         Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
>       o Vermutlich auch anders als in den meisten Bibliotheken werden
>         in der AdK vor allem Handschriften, unterschiedliche
>         Frakturschriften sowie existierende Transkriptionen
>         (Word-Dateien…) basisbildend sein.
>       o „Transkribus“ scheint für das, was wir vorhaben und
>         generieren– automatisierbare
>         Frakturschrift/Handschrifterkennung, manuelle Transkription,
>         GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut
>         geeignet zu sein.
>           + Gibt es Erfahrungen von Ihrer Seite mit der Software, die
>             Sie mit uns teilen könnten bzw. würden?
>   * Da wir im Workflow Anforderungen der Editionswissenschaften (z.B.
>     Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
>     gegenüber ALTO zumindest in bestimmten Projekten im Workflow
>     vorziehen.
>       o Gibt es in der Community bereits einen TEI-basierten Workflow
>         für kitodo.pro + kitodo.pre?
>

Lieber Herr Ernst,

mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn 
der Wunsch nach diesem Format schon vor ein paar Jahren formuliert wurde 
(https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen). 
Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der 
Implementierungsprojekte von OCR-D schließen. Die starten im neuen Jahr 
(das Bewilligungsverfahren bei der DFG läuft noch).

Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für 
Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg 
hier: https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat 
auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur 
bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit 
ch- und ck-Ligaturen aufweisen.

Auch für Calamari gibt es gute Frakturmodelle: 
https://ocr-d.de/en/models, 
https://github.com/chreul/19th-century-fraktur-OCR.

ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als 
unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso 
wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist 
auch, dass die Volltexte beispielsweise das historische lange "s" als 
normales rundes "s" ausgeben, während Tesseract und Calamari es als 
langes s ausgeben.

Für das Transkribieren und für die Erkennung von Handschrift ist 
momentan wahrscheinlich Transkribus am verbreitesten. Transkribus 
verwendet neuerdings eine freie Softwarekomponente für die Erkennung: 
https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch unabhängig 
von Transkribus verwenden.

Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht: 
https://www.primaresearch.org/tools/Aletheia (leider nur für Windows). 
Interessant ist eventuell auch eScriptorium 
(https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch 
anschauen möchten.

Viele Grüße

Stefan Weil

-- 

Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste

Universität Mannheim
Universitätsbibliothek

Schloss Schneckenhof West | 68131 Mannheim
  
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: stefan.weil at bib.uni-mannheim.de
Web: https://www.bib.uni-mannheim.de/

-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20201208/a1bc92e1/attachment.htm>
-------------- nächster Teil --------------
_______________________________________________
Kitodo-Community mailing list
Kitodo-Community at kitodo.org
https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community


Mehr Informationen über die Mailingliste Kitodo