<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body text="#000000" bgcolor="#FFFFFF">
<p>Liebe Community,</p>
<p>vielen Dank für die konstruktiven Anregungen, mit deren Hilfe ich
den Button zumindest testweise reanimieren konnte, wenn auch
leider nicht auf dem Weg über das ocr.php-Script. <br>
Eventuell fehlt da noch ein VHost in der Apache-Konfiguration ...<br>
</p>
<p>Für Kitodo-OCR nutzen wir einen externen Dienstleister, der uns
gleichzeitig HOCR und Textdaten bereitstellt. Für's erste habe ich
den Metadaten-Ordner in den Tomcat gelinkt, die ocrUrl angepasst
und so die plain-Text-OCR-Daten direkt vom Tomcat geladen. Dabei
hat sich dann als Problem gezeigt, dass die Textdaten mal als
ASCII und mal UTF-8 erkannt werden. Damit die Zeichen in der
Web-UI zuverlässig lesbar sind, musste ich zusätzlich einen
WebApp-Filter integrieren, der UTF-8 als Response-Content
erzwingt. Das ist mir zwar etwas zu kompliziert, aber es kamen
zumindest Daten in die Ansicht.<br>
</p>
<p><br>
</p>
<p>Viele Grüße!</p>
<p><br>
</p>
<div class="moz-cite-prefix">On 31.10.19 11:17, Möller, Armin wrote:<br>
</div>
<blockquote type="cite"
cite="mid:d5aa02a312b442eaad1d48868cccb9d8@sbb.spk-berlin.de">
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta name="Generator" content="Microsoft Word 15 (filtered
medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]-->
<style><!--
/* Font Definitions */
@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
{font-family:Consolas;
panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin:0cm;
margin-bottom:.0001pt;
font-size:11.0pt;
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
{mso-style-priority:99;
color:#0563C1;
text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
{mso-style-priority:99;
color:#954F72;
text-decoration:underline;}
p.MsoPlainText, li.MsoPlainText, div.MsoPlainText
{mso-style-priority:99;
mso-style-link:"Nur Text Zchn";
margin:0cm;
margin-bottom:.0001pt;
font-size:11.0pt;
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
p
{mso-style-priority:99;
mso-margin-top-alt:auto;
margin-right:0cm;
mso-margin-bottom-alt:auto;
margin-left:0cm;
font-size:12.0pt;
font-family:"Times New Roman",serif;}
pre
{mso-style-priority:99;
mso-style-link:"HTML Vorformatiert Zchn";
margin:0cm;
margin-bottom:.0001pt;
font-size:10.0pt;
font-family:"Courier New";}
p.msonormal0, li.msonormal0, div.msonormal0
{mso-style-name:msonormal;
mso-margin-top-alt:auto;
margin-right:0cm;
mso-margin-bottom-alt:auto;
margin-left:0cm;
font-size:12.0pt;
font-family:"Times New Roman",serif;}
span.E-MailFormatvorlage18
{mso-style-type:personal;
font-family:"Calibri",sans-serif;
color:windowtext;}
span.HTMLVorformatiertZchn
{mso-style-name:"HTML Vorformatiert Zchn";
mso-style-priority:99;
mso-style-link:"HTML Vorformatiert";
font-family:Consolas;
mso-fareast-language:EN-US;}
span.E-MailFormatvorlage23
{mso-style-type:personal-reply;
font-family:"Calibri",sans-serif;
color:#1F497D;}
span.NurTextZchn
{mso-style-name:"Nur Text Zchn";
mso-style-priority:99;
mso-style-link:"Nur Text";
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
.MsoChpDefault
{mso-style-type:export-only;
font-size:10.0pt;}
@page WordSection1
{size:612.0pt 792.0pt;
margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.WordSection1
{page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
<div class="WordSection1">
<p class="MsoPlainText">Liebe Community,<o:p></o:p></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">ich kann die
Funktion bestätigen. Ich habe den OCR-Button bei uns auch
implementiert. Dazu noch ein paar Anmerkungen.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Ich habe ein
Script das ALTO in eine TXT-Datei wandelt und ausgibt. Dabei
ist aufgefallen das allen Zeilenumbrüche in der Anzeige
entfernt werden.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Also liefere
ich HTML aus mit <pre>Datei</pre> das sieht dann
deutlich besser aus. Da ich das ALTO-Verzeichnis benötige
wäre es schön wenn der VariableReplacer auch ocraltopath
liefern würde. Jetzt ändere ich einfach bei ocrplaintextpath
„_txt/$“ in „_alto/“ um und fertig.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Damit spare ich
noch doppelte Datenhaltung von ALTO- und txt-Dateien.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Eintrag in
goobi_config.properties<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">showOcrButton=true<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">ocrUrl=<a class="moz-txt-link-freetext" href="http://b-digiwf-1.sbb.spk-berlin.de/cgi-bin/pres/gib_ocr.pl?ocrtxtpath=(ocrplaintextpath)">http://b-digiwf-1.sbb.spk-berlin.de/cgi-bin/pres/gib_ocr.pl?ocrtxtpath=(ocrplaintextpath)</a><o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Anbei noch das
Perl-Script<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">#!/usr/bin/perl<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># -*- coding:
utf-8 -*-<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">#Programm
einchecken<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use feature
":5.10";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use strict;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use CGI qw/
:all -debug /;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use
XML::LibXML;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use
HTML::Entities;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">if(
!defined(param("ocrtxtpath")) or !defined(param("imgrange"))
){<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
fehlerr( "falscher Aufruf " ) ;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">}
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $ocrpath =
param("ocrtxtpath");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $bild =
param("imgrange");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># Umwandeln von
OCR-TXT nach OCR_ALTO<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">$ocrpath =~
s#_txt/$#_alto/#;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $file =
"$ocrpath".sprintf("%08d",$bild).".xml";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">if( ! -f $file
) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
fehlerr( "OCR $file ist nicht in der Präsentation");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># Umwaldenl von
ALTO in TXT<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $tmp =
alto2txt($file); <o:p>
</o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">binmode(
STDOUT,':utf8');<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># ON the fly
TXT to HTML pre-formatet<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">print STDOUT
"Content-Type: text/html;
charset=UTF-8\n\n<pre>".encode_entities($tmp->{$file})."</pre>";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">sub fehlerr {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
print STDOUT "Content-Type: text/html;
charset=UTF-8\n\n<pre>Keine OCR gefunden</pre>";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
exit(0);<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">sub alto2txt {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># Umwandeln mit
ein bisschen Layout<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my ( $file ) =
@_;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
my $parser = XML::LibXML->new();<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
my %xmls;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
my $ret;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
if( ref ( $file ) ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
$xmls{'unkown'}=$file;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
} elsif ( -f $file ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
$xmls{$file}=$parser->parse_file($file) || die "parse";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
} elsif ( -d $file ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
opendir my $DIR,$file || die "parse";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
while ( my $f = readdir($DIR) ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
next unless $f =~ /xml$/;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
#~ say $file;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
$xmls{$f}=$parser->parse_file("$file/$f") || die "parse";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
close $DIR;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
for my $k ( sort keys %xmls ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
my $obj = $xmls{$k};<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
my %text;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
for my $line ( $obj->findnodes('//*[name()="TextLine"]'))
{<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
my $vp = $line->getAttribute("VPOS");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
($vp) = grep { abs($_-$vp)<10 } (keys %text,$vp);<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
$text{$vp} .= ($text{$vp} ? "\t" : "");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
for my $string (
$line->findnodes('.//*[name()="String"]')) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
if ( $string->getAttribute("SUBS_TYPE") eq "HypPart1" ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
$text{$vp} .= ($text{$vp} ? " " :
"").$string->getAttribute("SUBS_CONTENT");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
} else {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
$text{$vp} .= ($text{$vp} ? " " :
"").$string->getAttribute("CONTENT") unless
$string->getAttribute("SUBS_TYPE") eq "HypPart2"<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
for my $key ( sort { $a <=> $b } keys %text ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
$ret->{$k} .= "$text{$key}\n";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">
return $ret;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Mfg<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Armin Möller<o:p></o:p></span></p>
<div>
<p class="MsoNormal"><span
style="font-size:10.0pt;color:#1F497D;mso-fareast-language:DE">--<br>
******************************************************************<br>
Armin Möller, Administrator<br>
Abt. IDM Ref. 2 Tel +49 30 266 432231<br>
Staatsbibliothek zu Berlin PK <br>
Potsdamer Str. 33<br>
10772 Berlin <a
href="mailto:armin.moeller@sbb.spk-berlin.de"
moz-do-not-send="true"><span style="color:blue">armin.moeller@sbb.spk-berlin.de</span></a></span><span
style="color:#1F497D;mso-fareast-language:DE"><o:p></o:p></span></p>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div style="border:none;border-top:solid #E1E1E1
1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span
style="mso-fareast-language:DE">Von:</span></b><span
style="mso-fareast-language:DE">
<a class="moz-txt-link-abbreviated" href="mailto:kitodo-community-bounces@kitodo.org">kitodo-community-bounces@kitodo.org</a>
<a class="moz-txt-link-rfc2396E" href="mailto:kitodo-community-bounces@kitodo.org"><kitodo-community-bounces@kitodo.org></a>
<b>Im Auftrag von </b>Weber, Frank-Ulrich<br>
<b>Gesendet:</b> Mittwoch, 30. Oktober 2019 14:13<br>
<b>An:</b> <a class="moz-txt-link-abbreviated" href="mailto:kitodo-community@kitodo.org">kitodo-community@kitodo.org</a><br>
<b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit
Kitodo<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="color:black">Hallo Herr
Hartwig,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">der OCR-Button
ruft schlicht die unter ocrUrl konfigurierte URL auf und
füllt das OCR Fenster mit deren Ausgabe.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black">(tifpath) ist ein
Platzhalter und wird zur Laufzeit passen ersetzt (siehe
VariableReplacer.pdf). Zusätzlich wird die
Seitennummer(imgrange) angehängt.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">An dieser Stelle
(ocr.php) könnten natürlich auch andere Formate eingelesen
und passend ausgegeben werden.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">Beste Grüße<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">Frank Ulrich
Weber<o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div class="MsoNormal"><span
style="font-size:12.0pt;font-family:"Times New
Roman",serif;mso-fareast-language:DE">
<hr style="width:445.5pt" width="594" size="2" align="left">
</span></div>
<table class="MsoNormalTable" style="width:442.5pt" width="0"
cellpadding="0" border="0">
<tbody>
<tr style="height:18.75pt">
<td colspan="5" style="padding:.75pt .75pt .75pt
.75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%">
<p><span
style="font-size:10.0pt;font-family:"Calibri",sans-serif">Frank-Ulrich
Weber
</span><span
style="font-size:10.5pt;font-family:"Calibri",sans-serif"><br>
</span><span
style="font-size:8.5pt;font-family:"Calibri",sans-serif">Product
Manager Software Solutions
</span><span
style="font-size:10.5pt;font-family:"Calibri",sans-serif"><o:p></o:p></span></p>
</td>
</tr>
<tr style="height:51.75pt">
<td style="width:300.0pt;padding:2.25pt .75pt .75pt
.75pt;height:51.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%"
width="403">
<p class="MsoNormal"><span
style="font-size:10.5pt;mso-fareast-language:DE"><a
href="http://www.zeutschel.de"
moz-do-not-send="true"><span
style="text-decoration:none"><img
style="width:1.875in;height:.4687in"
id="_x0000_i1026"
src="cid:part2.670B711D.D9945552@bibliothek.uni-halle.de"
class="" width="180" height="45" border="0"></span></a><o:p></o:p></span></p>
</td>
<td style="width:25.5pt;padding:.75pt .75pt .75pt
.75pt;height:51.75pt" width="38">
<p style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST:
100%" align="center"><span
style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a
href="https://twitter.com/zeutschelgmbh"
moz-do-not-send="true"><span
style="text-decoration:none"><img
style="width:.3541in;height:.3541in"
id="_x0000_i1027"
src="cid:part4.667F05B8.FC58F4CA@bibliothek.uni-halle.de"
class="" width="34" height="34" border="0"></span></a><o:p></o:p></span></p>
</td>
<td style="width:25.5pt;padding:.75pt .75pt .75pt
.75pt;height:51.75pt" width="38">
<p style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST:
100%" align="center"><span
style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a
href="http://www.youtube.com/user/zeutschelbookscanner"
moz-do-not-send="true"><span
style="text-decoration:none"><img
style="width:.3541in;height:.3541in"
id="_x0000_i1028"
src="cid:part6.17943F6D.F328589B@bibliothek.uni-halle.de"
class="" width="34" height="34" border="0"></span></a><o:p></o:p></span></p>
</td>
<td style="width:25.5pt;padding:.75pt .75pt .75pt
.75pt;height:51.75pt" width="38">
<p style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST:
100%" align="center"><span
style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a
href="https://www.facebook.com/pages/Zeutschel-GmbH/193873073980288?fref=ts"
moz-do-not-send="true"><span
style="text-decoration:none"><img
style="width:.3541in;height:.3541in"
id="_x0000_i1029"
src="cid:part8.99EC8AAA.1D6B4602@bibliothek.uni-halle.de"
class="" width="34" height="34" border="0"></span></a><o:p></o:p></span></p>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:51.75pt"><br>
</td>
</tr>
<tr style="height:18.75pt">
<td style="padding:2.25pt .75pt .75pt
.75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%"
valign="top">
<p class="MsoNormal"><strong><span
style="font-size:10.0pt;font-family:"Calibri",sans-serif;mso-fareast-language:DE">Zeutschel
GmbH</span></strong><span
style="font-size:10.0pt;mso-fareast-language:DE">
</span><span
style="font-size:8.5pt;mso-fareast-language:DE">|
Heerweg 2 | 72070 Tübingen | Deutschland
<br>
p: +49 (7071) 9706-56 | m: | f: +49 (7071) 9706-44 <br>
e: <a href="mailto:Frank-Ulrich.Weber@zeutschel.de"
moz-do-not-send="true">Frank-Ulrich.Weber@zeutschel.de</a>
| w:
<a href="http://www.zeutschel.de"
moz-do-not-send="true">http://www.zeutschel.de</a>
</span><span
style="font-size:10.5pt;mso-fareast-language:DE"><o:p></o:p></span></p>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
</td>
</tr>
<tr style="height:18.75pt">
<td colspan="4" style="padding:4.5pt .75pt .75pt
.75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%"
valign="top">
<p class="MsoNormal"><span
style="font-size:8.5pt;mso-fareast-language:DE">Geschäftsführer/President:
Joerg Vogler | Registergericht Stuttgart: HRB 380917
</span><span
style="font-size:10.5pt;mso-fareast-language:DE"><o:p></o:p></span></p>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
</td>
</tr>
</tbody>
</table>
<p><span
style="font-size:11.5pt;font-family:"Calibri",sans-serif"><a
href="https://www.zeutschel.de/" title="Zeutschel
Homepage" moz-do-not-send="true"><span
style="text-decoration:none"><img
style="width:6.1458in;height:.9479in"
id="_x0000_i1030"
src="cid:part12.747F6E45.A2D380F6@bibliothek.uni-halle.de"
class="" width="590" height="91" border="0"></span></a><o:p></o:p></span></p>
<div>
<div style="border:none;border-top:solid #E1E1E1
1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b>Von:</b> <a
href="mailto:kitodo-community-bounces@kitodo.org"
moz-do-not-send="true">
kitodo-community-bounces@kitodo.org</a> <<a
href="mailto:kitodo-community-bounces@kitodo.org"
moz-do-not-send="true">kitodo-community-bounces@kitodo.org</a>>
<b>Im Auftrag von </b>Wendt, Kerstin<br>
<b>Gesendet:</b> Mittwoch, 30. Oktober 2019 13:49<br>
<b>An:</b> '<a class="moz-txt-link-abbreviated" href="mailto:kitodo-community@kitodo.org">kitodo-community@kitodo.org</a>' <<a
href="mailto:kitodo-community@kitodo.org"
moz-do-not-send="true">kitodo-community@kitodo.org</a>><br>
<b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit
Kitodo<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="color:#1F497D">Hallo Herr
Hartwig,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">auf die
Schnelle ein Bild vom „Verschollenen“ aus unserem Kitodo:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><img style="width:7.2916in;height:7.6458in"
id="Grafik_x0020_1"
src="cid:part17.5ADBB53D.DA4BC8CD@bibliothek.uni-halle.de"
alt="cid:image001.png@01D58F28.9146AE90" class=""
width="700" height="734" border="0"><span
style="color:#1F497D"><o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Technische
Voraussetzung ist, dass im Vorgangsverzeichnis (neben den
ALTO-Files) ein Verzeichnis mit reinen .txt-Dateien der
OCR-Ergebnisse existiert. Wir lassen diese Textdatei
zusätzlich und ohne Mehrkosten vom OCR-Dienstleister
erzeugen. Dann kommt noch ein kl. Stück Konfiguration in
goobi_config.properties dazu:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">showOcrButton=true<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">ocrUrl=<a class="moz-txt-link-freetext" href="https://kitodo.sub.uni-hamburg.de/tools/ocr.php?path=(tifpath)">https://kitodo.sub.uni-hamburg.de/tools/ocr.php?path=(tifpath)</a><o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Ich hoffe, ich
habe jetzt keinen Baustein vergessen.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Viele Grüße von
Kerstin Wendt<o:p></o:p></span></p>
<div>
<p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">--<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Kerstin
Wendt<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Stabsstelle
Digitalisierung<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Staats-
und Universitaetsbibliothek Hamburg Carl von Ossietzky<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Von-Melle-Park
3, 20146 Hamburg
<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Telefon
040/42838-5817 | Fax : 040/41345070
<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D"
lang="EN-US">Mail:
</span><a href="mailto:kerstin.wendt@sub.uni-hamburg.de"
moz-do-not-send="true"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif"
lang="EN-US">kerstin.wendt@sub.uni-hamburg.de</span></a><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D"
lang="EN-US"><o:p></o:p></span></p>
<p class="MsoNormal"><a href="http://www.sub.uni-hamburg.de"
moz-do-not-send="true"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif">www.sub.uni-hamburg.de</span></a><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">
</span><span style="color:#1F497D"><o:p></o:p></span></p>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div style="border:none;border-top:solid #E1E1E1
1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b>Von:</b> <a
href="mailto:kitodo-community-bounces@kitodo.org"
moz-do-not-send="true">
kitodo-community-bounces@kitodo.org</a> <<a
href="mailto:kitodo-community-bounces@kitodo.org"
moz-do-not-send="true">kitodo-community-bounces@kitodo.org</a>>
<b>Im Auftrag von </b>Uwe Hartwig<br>
<b>Gesendet:</b> Mittwoch, 30. Oktober 2019 13:16<br>
<b>An:</b> <a href="mailto:kitodo-community@kitodo.org"
moz-do-not-send="true">kitodo-community@kitodo.org</a><br>
<b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit
Kitodo<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p>Liebe Community, lieber Herr Gerhardt,<o:p></o:p></p>
<p>ich hatte die Hoffnung, dass die Einbindung der erstellten
OCR-Daten (im Format HOCR-xhtml) im Prinzip in Kitodo 2.x
möglich ist und es einen Fehler in unserer
Kitodo-Konfiguration gibt, die dazu führt, dass keine Daten
angezeigt werden. Nun klingt das für mich leider so, als sei
diese Funktionalität schon länger verschollen.<o:p></o:p></p>
<p>Bei unserem derzeitigen Workflow haben die Mitarbeiter im
VL-Manager die Möglichkeit, anhand der OC-Resultate
zusätzliche Qualitätssicherungsmaßnahme einzuleiten, z.B.
einen Nachscan anzufordern. Das wäre also in dieser Form nach
derzeitigem Kenntnisstand mit Kitodo 2.x nicht möglich, weil
keine OCR-Daten im Metadateneditor angezeigt werden?<o:p></o:p></p>
<p><o:p> </o:p></p>
<p>Danke und Grüße!<o:p></o:p></p>
<p><o:p> </o:p></p>
<div>
<p class="MsoNormal">On 30.10.19 13:02, Henning Gerhardt
wrote:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>Liebe Community, lieber Herr Hartwig,<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Kitodo.Production 2.x bringt selbst keine Werkzeuge mit, um eine<o:p></o:p></pre>
<pre>Texterkennung direkt durchzuführen und ist auf externe Dienste<o:p></o:p></pre>
<pre>angewiesen. Ein solcher Dienst versteckt sich hinter dem "OCR" Button,<o:p></o:p></pre>
<pre>der eine nicht näher spezifizierte Schnittstelle anspricht und von<o:p></o:p></pre>
<pre>dieser nicht näher spezifizierte Daten zurück bekommt. Damit soll man<o:p></o:p></pre>
<pre>dann wohl die Ergebnisse im Metadateneditor von Kitodo.Production sehen<o:p></o:p></pre>
<pre>können. Ich selbst habe in den vielen Jahren der Nutzung von<o:p></o:p></pre>
<pre>Kitodo.Production 1.x und 2.x niemals eine solche Einbindung gesehen und<o:p></o:p></pre>
<pre>/ oder erlebt.<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>An der SLUB wird die OCR selbst als eigenständiger Schritt / Aufgabe<o:p></o:p></pre>
<pre>nach der Metadaten-Bearbeitung ausgeführt. Über unseren externen OCR<o:p></o:p></pre>
<pre>Dienstleister werden die Ergebnisse als ALTO-XML zurückgeliefert und im<o:p></o:p></pre>
<pre>jeweiligen Vorgangsverzeichnis abgelegt. Beim Export werden neben den<o:p></o:p></pre>
<pre>Bild- und Metadaten auch die vorhandenen OCR Daten exportiert und an die<o:p></o:p></pre>
<pre>Präsentation auf Basis von Kitodo.Presentation übergeben.<o:p></o:p></pre>
<pre>Kitodo.Presentation stellt dann die OCR Ergebnisse dar.<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Viele Grüße<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre> Henning Gerhardt<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>On 10/30/19 11:10 AM, Uwe Hartwig wrote:<o:p></o:p></pre>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>Liebe Community,<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>mal allgemein in die Runde gefragt: Wer hat Erfahrungen mit den <o:p></o:p></pre>
<pre>Texterkennungsfunktionalitäten mit Kitodo gesammelt?<o:p></o:p></pre>
<pre>Und wenn ja, mit welcher Kitodo-Version?<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Da wir bei der ULB Sachsen-Anhalt auf ALTO-XML setzen, interessiert uns <o:p></o:p></pre>
<pre>natürlich, ob Kitodo mit diesem Format etwas anfangen kann. Dazu zählt, <o:p></o:p></pre>
<pre>z.B. ob der "OCR"-Button in der Strukturierungsansicht diese Daten <o:p></o:p></pre>
<pre>entsprechend darstellen kann und ob dieses Format auch von <o:p></o:p></pre>
<pre>nachgelagerten Prozessen Richtung DMS-Export (zedExporter) verarbeitet <o:p></o:p></pre>
<pre>werden kann.<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Danke!<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre><o:p> </o:p></pre>
</blockquote>
<pre><o:p> </o:p></pre>
<p class="MsoNormal" style="margin-bottom:12.0pt"><o:p> </o:p></p>
<pre>_______________________________________________<o:p></o:p></pre>
<pre>Kitodo-Community mailing list<o:p></o:p></pre>
<pre><a href="mailto:Kitodo-Community@kitodo.org" moz-do-not-send="true">Kitodo-Community@kitodo.org</a><o:p></o:p></pre>
<pre><a href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community" moz-do-not-send="true">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a><o:p></o:p></pre>
</blockquote>
<pre>-- <o:p></o:p></pre>
<pre>Uwe Hartwig<o:p></o:p></pre>
<pre>Anwendungsentwickler IT / Digitale Dienste <o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Universitäts- und Landesbibliothek Sachsen-Anhalt<o:p></o:p></pre>
<pre>August-Bebel-Straße 13<o:p></o:p></pre>
<pre>D - 06108 Halle (Saale)<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Fon: + 49 345 55 22 183<o:p></o:p></pre>
<pre>Mail: <a href="mailto:uwe.hartwig@bibliothek.uni-halle.de" moz-do-not-send="true">uwe.hartwig@bibliothek.uni-halle.de</a><o:p></o:p></pre>
</div>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<pre class="moz-quote-pre" wrap="">_______________________________________________
Kitodo-Community mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Kitodo-Community@kitodo.org">Kitodo-Community@kitodo.org</a>
<a class="moz-txt-link-freetext" href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a>
</pre>
</blockquote>
<pre class="moz-signature" cols="72">--
Uwe Hartwig
Anwendungsentwickler IT / Digitale Dienste
Universitäts- und Landesbibliothek Sachsen-Anhalt
August-Bebel-Straße 13
D - 06108 Halle (Saale)
Fon: + 49 345 55 22 183
Mail: <a class="moz-txt-link-abbreviated" href="mailto:uwe.hartwig@bibliothek.uni-halle.de">uwe.hartwig@bibliothek.uni-halle.de</a></pre>
</body>
</html>