[Kitodo] Transkriptionssoftware + TEI in kitodo.production und .presentation
Uwe Hartwig ULB
uwe.hartwig at bibliothek.uni-halle.de
Di Dez 8 20:38:18 CET 2020
Lieber Herr Ernst,
wir verwenden bei einigen Projekten Transkribus zum Transkribieren und
zur Post-Correction von ALTO.
In einer angepassten Version, die für lokale Arbeiten komplett Offline
und ohne vorherige Anmeldung bei Transkribus funktioniert
(https://github.com/ulb-sachsen-anhalt/TranskribusSwtGui/tree/ulb/master).
Der Vorteil für Transkribus ist, dass es Plattformunabhängig ist - der
Nachteil ist im Handling der Exportformate, insbesondere mit ALTO und PAGE.
Hier ist Transkribus leider etwas veraltet, d.h. es kann z.B. aktuell
bei ALTO von Haus aus nur mit Version 2 umgehen.
Zu den Versionsständen bei TEI kann ich leider keine Aussagen machen.
Liebe Grüße
Am 08.12.20 um 18:50 schrieb Stefan Weil:
>
> Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:
>
>> Liebe Kitodo-Community,
>>
>> wir testen derzeit Software für OCR & Transkriptionen, deren
>> Implementierung in unseren zukünftigen Digitalisierungsworkflow mit
>> Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.
>>
>> * Bisher gibt es_kein_ softwarebasiertes OCR bzw.
>> Transkriptions-Verfahren in der AdK für Archivalien, wir testen
>> deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
>> o Anders als in Bibliotheken wird unser Digitalisierungs-Output
>> jedoch wesentlich geringer sein, wir rechnen mit 3000-5000
>> Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
>> o Vermutlich auch anders als in den meisten Bibliotheken werden
>> in der AdK vor allem Handschriften, unterschiedliche
>> Frakturschriften sowie existierende Transkriptionen
>> (Word-Dateien…) basisbildend sein.
>> o „Transkribus“ scheint für das, was wir vorhaben und
>> generieren– automatisierbare
>> Frakturschrift/Handschrifterkennung, manuelle Transkription,
>> GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut
>> geeignet zu sein.
>> + Gibt es Erfahrungen von Ihrer Seite mit der Software, die
>> Sie mit uns teilen könnten bzw. würden?
>> * Da wir im Workflow Anforderungen der Editionswissenschaften (z.B.
>> Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
>> gegenüber ALTO zumindest in bestimmten Projekten im Workflow
>> vorziehen.
>> o Gibt es in der Community bereits einen TEI-basierten Workflow
>> für kitodo.pro + kitodo.pre?
>>
>
> Lieber Herr Ernst,
>
> mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch
> wenn der Wunsch nach diesem Format schon vor ein paar Jahren
> formuliert wurde
> (https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen).
> Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der
> Implementierungsprojekte von OCR-D schließen. Die starten im neuen
> Jahr (das Bewilligungsverfahren bei der DFG läuft noch).
>
> Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für
> Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg
> hier: https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat
> auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur
> bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit
> ch- und ck-Ligaturen aufweisen.
>
> Auch für Calamari gibt es gute Frakturmodelle:
> https://ocr-d.de/en/models,
> https://github.com/chreul/19th-century-fraktur-OCR.
>
> ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als
> unsere Modelle (zumindest in unseren Tests). Es berechnet dafür –
> ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY und
> Transkribus ist auch, dass die Volltexte beispielsweise das
> historische lange "s" als normales rundes "s" ausgeben, während
> Tesseract und Calamari es als langes s ausgeben.
>
> Für das Transkribieren und für die Erkennung von Handschrift ist
> momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
> verwendet neuerdings eine freie Softwarekomponente für die Erkennung:
> https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch
> unabhängig von Transkribus verwenden.
>
> Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht:
> https://www.primaresearch.org/tools/Aletheia (leider nur für Windows).
> Interessant ist eventuell auch eScriptorium
> (https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch
> anschauen möchten.
>
> Viele Grüße
>
> Stefan Weil
>
> --
>
> Stefan Weil
> Abteilungsleiter Digitale Bibliotheksdienste
>
> Universität Mannheim
> Universitätsbibliothek
>
> Schloss Schneckenhof West | 68131 Mannheim
>
> Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
> Fax: +49 621 181-2960
> E-Mail:stefan.weil at bib.uni-mannheim.de
> Web:https://www.bib.uni-mannheim.de/
>
> _______________________________________________
> Kitodo-Community mailing list
> Kitodo-Community at kitodo.org
> https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community
--
Uwe Hartwig
Anwendungsentwickler IT / Digitale Dienste
Universitäts- und Landesbibliothek Sachsen-Anhalt
August-Bebel-Straße 13
D - 06108 Halle (Saale)
Fon: + 49 345 55 22 183
Mail: uwe.hartwig at bibliothek.uni-halle.de
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20201208/2df37762/attachment-0001.htm>
-------------- nächster Teil --------------
_______________________________________________
Kitodo-Community mailing list
Kitodo-Community at kitodo.org
https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community
Mehr Informationen über die Mailingliste Kitodo