[Kitodo] [OCR] Texterkennung mit Kitodo

Ronge, Matthias Matthias.Ronge at zeutschel.de
Mi Okt 30 13:58:08 CET 2019


Hallo Liste,

Der Parameter „ocrUrl“ muss in der config.properties-Datei gesetzt werden. In dem Pfad können die Variablen in runden Klammern benutzt werden (wie bei der Konfiguration der METS-Parameter URLs), angehängt werden die Seitennummer(n). Dies ist die Stelle, an der die OCR-URL zusammengebaut wird: https://github.com/kitodo/kitodo-production/blob/2.x/Goobi/src/de/sub/goobi/metadaten/Metadaten.java#L2254-L2261

Die URL wird dann abgerufen und das Ergebnis angezeigt. Was dazwischen fehlt, ist ein Webbrowser, der die URL interpretiert und entsprechend das passende OCR-Ergebnis (Format TXT) zurückgibt, was man mit einem CGI-Skript bewerkstelligen könnte. Die Idee dabei ist, etwa vom Schmucktitel Text per Copy/Paste in Metadatenfelder übernehmen zu können und nicht abtippen zu müssen.
Die Frage wäre noch, wie das HOCR-xhtml nach Text gewandelt wird, oder ob das HTML angezeigt werden kann/soll.

Grüße
Matthias Ronge


________________________________

Matthias Ronge
Software Entwicklung/Software Development


[cid:Z_Logo_RGB_180px_2b974e26-85b9-4005-92dd-9bb8df881ab3.png]<http://www.zeutschel.de> <http://www.zeutschel.de>

[cid:Twitter-34x34_f9819937-1c34-4eab-b2fc-944fcf2e8938.png]<https://twitter.com/zeutschelgmbh>


[cid:YouTube-34x34_8cf03759-cc15-472e-a763-e628ea59d43b.png]<http://www.youtube.com/user/zeutschelbookscanner>


[cid:Facebook-34x34_ab94d89a-875f-49f2-81f3-e136c66e4bb5.png]<https://www.facebook.com/pages/Zeutschel-GmbH/193873073980288?fref=ts><https://plus.google.com/110507211572689796815/posts>


Zeutschel GmbH | Heerweg 2 | 72070 Tübingen | Deutschland
p: +49 (7071) 9706-62 | m: | f: +49 (7071) 9706-44
e: Matthias.Ronge at zeutschel.de<mailto:Matthias.Ronge at zeutschel.de> | w: http://www.zeutschel.de
Geschäftsführer/President: Joerg Vogler | Registergericht Stuttgart: HRB 380917

[cid:Banner-OS-Q-und-HQ_501e816f-0750-40ec-9871-5bf71646f764.png]<https://www.zeutschel.de/>
Von: kitodo-community-bounces at kitodo.org <kitodo-community-bounces at kitodo.org> Im Auftrag von Uwe Hartwig
Gesendet: Mittwoch, 30. Oktober 2019 13:16
An: kitodo-community at kitodo.org
Betreff: Re: [Kitodo] [OCR] Texterkennung mit Kitodo


Liebe Community, lieber Herr Gerhardt,

ich hatte die Hoffnung, dass die Einbindung der erstellten OCR-Daten (im Format HOCR-xhtml) im Prinzip in Kitodo 2.x möglich ist und es einen Fehler in unserer Kitodo-Konfiguration gibt, die dazu führt, dass keine Daten angezeigt werden. Nun klingt das für mich leider so, als sei diese Funktionalität schon länger verschollen.

Bei unserem derzeitigen Workflow haben die Mitarbeiter im VL-Manager die Möglichkeit, anhand der OC-Resultate zusätzliche Qualitätssicherungsmaßnahme einzuleiten, z.B. einen Nachscan anzufordern. Das wäre also in dieser Form nach derzeitigem Kenntnisstand mit Kitodo 2.x nicht möglich, weil keine OCR-Daten im Metadateneditor angezeigt werden?



Danke und Grüße!


On 30.10.19 13:02, Henning Gerhardt wrote:

Liebe Community, lieber Herr Hartwig,



Kitodo.Production 2.x bringt selbst keine Werkzeuge mit, um eine

Texterkennung direkt durchzuführen und ist auf externe Dienste

angewiesen. Ein solcher Dienst versteckt sich hinter dem "OCR" Button,

der eine nicht näher spezifizierte Schnittstelle anspricht und von

dieser nicht näher spezifizierte Daten zurück bekommt. Damit soll man

dann wohl die Ergebnisse im Metadateneditor von Kitodo.Production sehen

können. Ich selbst habe in den vielen Jahren der Nutzung von

Kitodo.Production 1.x und 2.x niemals eine solche Einbindung gesehen und

/ oder erlebt.



An der SLUB wird die OCR selbst als eigenständiger Schritt / Aufgabe

nach der Metadaten-Bearbeitung ausgeführt. Über unseren externen OCR

Dienstleister werden die Ergebnisse als ALTO-XML zurückgeliefert und im

jeweiligen Vorgangsverzeichnis abgelegt. Beim Export werden neben den

Bild- und Metadaten auch die vorhandenen OCR Daten exportiert und an die

Präsentation auf Basis von Kitodo.Presentation übergeben.

Kitodo.Presentation stellt dann die OCR Ergebnisse dar.





Viele Grüße



    Henning Gerhardt



On 10/30/19 11:10 AM, Uwe Hartwig wrote:

Liebe Community,



mal allgemein in die Runde gefragt: Wer hat Erfahrungen mit den

Texterkennungsfunktionalitäten mit Kitodo gesammelt?

Und wenn ja, mit welcher Kitodo-Version?



Da wir bei der ULB Sachsen-Anhalt auf ALTO-XML setzen, interessiert uns

natürlich, ob Kitodo mit diesem Format etwas anfangen kann. Dazu zählt,

z.B. ob der "OCR"-Button in der Strukturierungsansicht diese Daten

entsprechend darstellen kann und ob dieses Format auch von

nachgelagerten Prozessen Richtung DMS-Export (zedExporter) verarbeitet

werden kann.



Danke!









_______________________________________________

Kitodo-Community mailing list

Kitodo-Community at kitodo.org<mailto:Kitodo-Community at kitodo.org>

https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community

--

Uwe Hartwig

Anwendungsentwickler IT / Digitale Dienste



Universitäts- und Landesbibliothek Sachsen-Anhalt

August-Bebel-Straße 13

D - 06108 Halle (Saale)



Fon: + 49 345 55 22 183

Mail: uwe.hartwig at bibliothek.uni-halle.de<mailto:uwe.hartwig at bibliothek.uni-halle.de>
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20191030/befe17b4/attachment-0001.html>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : Z_Logo_RGB_180px_2b974e26-85b9-4005-92dd-9bb8df881ab3.png
Dateityp    : image/png
Dateigröße  : 4047 bytes
Beschreibung: Z_Logo_RGB_180px_2b974e26-85b9-4005-92dd-9bb8df881ab3.png
URL         : <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20191030/befe17b4/attachment-0005.png>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : Twitter-34x34_f9819937-1c34-4eab-b2fc-944fcf2e8938.png
Dateityp    : image/png
Dateigröße  : 4594 bytes
Beschreibung: Twitter-34x34_f9819937-1c34-4eab-b2fc-944fcf2e8938.png
URL         : <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20191030/befe17b4/attachment-0006.png>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : YouTube-34x34_8cf03759-cc15-472e-a763-e628ea59d43b.png
Dateityp    : image/png
Dateigröße  : 4355 bytes
Beschreibung: YouTube-34x34_8cf03759-cc15-472e-a763-e628ea59d43b.png
URL         : <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20191030/befe17b4/attachment-0007.png>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : Facebook-34x34_ab94d89a-875f-49f2-81f3-e136c66e4bb5.png
Dateityp    : image/png
Dateigröße  : 4533 bytes
Beschreibung: Facebook-34x34_ab94d89a-875f-49f2-81f3-e136c66e4bb5.png
URL         : <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20191030/befe17b4/attachment-0008.png>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : Banner-OS-Q-und-HQ_501e816f-0750-40ec-9871-5bf71646f764.png
Dateityp    : image/png
Dateigröße  : 40523 bytes
Beschreibung: Banner-OS-Q-und-HQ_501e816f-0750-40ec-9871-5bf71646f764.png
URL         : <http://bibservices.biblio.etc.tu-bs.de/pipermail/kitodo/attachments/20191030/befe17b4/attachment-0009.png>
-------------- nächster Teil --------------
_______________________________________________
Kitodo-Community mailing list
Kitodo-Community at kitodo.org
https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community


Mehr Informationen über die Mailingliste Kitodo