[Kitodo] Transkriptionssoftware + TEI in kitodo.production und .presentation
Stefan Weil
stefan.weil at bib.uni-mannheim.de
Di Dez 8 18:50:12 CET 2020
Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:
> Liebe Kitodo-Community,
>
> wir testen derzeit Software für OCR & Transkriptionen, deren
> Implementierung in unseren zukünftigen Digitalisierungsworkflow mit
> Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.
>
> * Bisher gibt es_kein_ softwarebasiertes OCR bzw.
> Transkriptions-Verfahren in der AdK für Archivalien, wir testen
> deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
> o Anders als in Bibliotheken wird unser Digitalisierungs-Output
> jedoch wesentlich geringer sein, wir rechnen mit 3000-5000
> Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
> o Vermutlich auch anders als in den meisten Bibliotheken werden
> in der AdK vor allem Handschriften, unterschiedliche
> Frakturschriften sowie existierende Transkriptionen
> (Word-Dateien…) basisbildend sein.
> o „Transkribus“ scheint für das, was wir vorhaben und
> generieren– automatisierbare
> Frakturschrift/Handschrifterkennung, manuelle Transkription,
> GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut
> geeignet zu sein.
> + Gibt es Erfahrungen von Ihrer Seite mit der Software, die
> Sie mit uns teilen könnten bzw. würden?
> * Da wir im Workflow Anforderungen der Editionswissenschaften (z.B.
> Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
> gegenüber ALTO zumindest in bestimmten Projekten im Workflow
> vorziehen.
> o Gibt es in der Community bereits einen TEI-basierten Workflow
> für kitodo.pro + kitodo.pre?
>
Lieber Herr Ernst,
mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn
der Wunsch nach diesem Format schon vor ein paar Jahren formuliert wurde
(https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen).
Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der
Implementierungsprojekte von OCR-D schließen. Die starten im neuen Jahr
(das Bewilligungsverfahren bei der DFG läuft noch).
Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für
Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg
hier: https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat
auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur
bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit
ch- und ck-Ligaturen aufweisen.
Auch für Calamari gibt es gute Frakturmodelle:
https://ocr-d.de/en/models,
https://github.com/chreul/19th-century-fraktur-OCR.
ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als
unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso
wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist
auch, dass die Volltexte beispielsweise das historische lange "s" als
normales rundes "s" ausgeben, während Tesseract und Calamari es als
langes s ausgeben.
Für das Transkribieren und für die Erkennung von Handschrift ist
momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
verwendet neuerdings eine freie Softwarekomponente für die Erkennung:
https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch unabhängig
von Transkribus verwenden.
Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht:
https://www.primaresearch.org/tools/Aletheia (leider nur für Windows).
Interessant ist eventuell auch eScriptorium
(https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch
anschauen möchten.
Viele Grüße
Stefan Weil
--
Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West | 68131 Mannheim
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: stefan.weil at bib.uni-mannheim.de
Web: https://www.bib.uni-mannheim.de/
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20201208/a1bc92e1/attachment.htm>
-------------- nächster Teil --------------
_______________________________________________
Kitodo-Community mailing list
Kitodo-Community at kitodo.org
https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community
Mehr Informationen über die Mailingliste Kitodo