<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
{font-family:Consolas;
panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin:0cm;
margin-bottom:.0001pt;
font-size:11.0pt;
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
{mso-style-priority:99;
color:#0563C1;
text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
{mso-style-priority:99;
color:#954F72;
text-decoration:underline;}
p.MsoPlainText, li.MsoPlainText, div.MsoPlainText
{mso-style-priority:99;
mso-style-link:"Nur Text Zchn";
margin:0cm;
margin-bottom:.0001pt;
font-size:11.0pt;
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
p
{mso-style-priority:99;
mso-margin-top-alt:auto;
margin-right:0cm;
mso-margin-bottom-alt:auto;
margin-left:0cm;
font-size:12.0pt;
font-family:"Times New Roman",serif;}
pre
{mso-style-priority:99;
mso-style-link:"HTML Vorformatiert Zchn";
margin:0cm;
margin-bottom:.0001pt;
font-size:10.0pt;
font-family:"Courier New";}
p.msonormal0, li.msonormal0, div.msonormal0
{mso-style-name:msonormal;
mso-margin-top-alt:auto;
margin-right:0cm;
mso-margin-bottom-alt:auto;
margin-left:0cm;
font-size:12.0pt;
font-family:"Times New Roman",serif;}
span.E-MailFormatvorlage18
{mso-style-type:personal;
font-family:"Calibri",sans-serif;
color:windowtext;}
span.HTMLVorformatiertZchn
{mso-style-name:"HTML Vorformatiert Zchn";
mso-style-priority:99;
mso-style-link:"HTML Vorformatiert";
font-family:Consolas;
mso-fareast-language:EN-US;}
span.E-MailFormatvorlage23
{mso-style-type:personal-reply;
font-family:"Calibri",sans-serif;
color:#1F497D;}
span.NurTextZchn
{mso-style-name:"Nur Text Zchn";
mso-style-priority:99;
mso-style-link:"Nur Text";
font-family:"Calibri",sans-serif;
mso-fareast-language:EN-US;}
.MsoChpDefault
{mso-style-type:export-only;
font-size:10.0pt;}
@page WordSection1
{size:612.0pt 792.0pt;
margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.WordSection1
{page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="DE" link="#0563C1" vlink="#954F72">
<div class="WordSection1">
<p class="MsoPlainText">Liebe Community,<o:p></o:p></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">ich kann die Funktion bestätigen. Ich habe den OCR-Button bei uns auch implementiert. Dazu noch ein paar Anmerkungen.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Ich habe ein Script das ALTO in eine TXT-Datei wandelt und ausgibt. Dabei ist aufgefallen das allen Zeilenumbrüche in der Anzeige entfernt werden.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Also liefere ich HTML aus mit <pre>Datei</pre> das sieht dann deutlich besser aus. Da ich das ALTO-Verzeichnis benötige wäre es schön wenn der VariableReplacer auch ocraltopath liefern würde. Jetzt ändere ich
einfach bei ocrplaintextpath „_txt/$“ in „_alto/“ um und fertig.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Damit spare ich noch doppelte Datenhaltung von ALTO- und txt-Dateien.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Eintrag in goobi_config.properties<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">showOcrButton=true<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">ocrUrl=http://b-digiwf-1.sbb.spk-berlin.de/cgi-bin/pres/gib_ocr.pl?ocrtxtpath=(ocrplaintextpath)<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Anbei noch das Perl-Script<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">#!/usr/bin/perl<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># -*- coding: utf-8 -*-<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">#Programm einchecken<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use feature ":5.10";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use strict;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use CGI qw/ :all -debug /;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use XML::LibXML;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">use HTML::Entities;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">if( !defined(param("ocrtxtpath")) or !defined(param("imgrange")) ){<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> fehlerr( "falscher Aufruf " ) ;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">} <o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $ocrpath = param("ocrtxtpath");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $bild = param("imgrange");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># Umwandeln von OCR-TXT nach OCR_ALTO<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">$ocrpath =~ s#_txt/$#_alto/#;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $file = "$ocrpath".sprintf("%08d",$bild).".xml";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">if( ! -f $file ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> fehlerr( "OCR $file ist nicht in der Präsentation");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># Umwaldenl von ALTO in TXT<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my $tmp = alto2txt($file); <o:p>
</o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">binmode( STDOUT,':utf8');<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># ON the fly TXT to HTML pre-formatet<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">print STDOUT "Content-Type: text/html; charset=UTF-8\n\n<pre>".encode_entities($tmp->{$file})."</pre>";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">sub fehlerr {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> print STDOUT "Content-Type: text/html; charset=UTF-8\n\n<pre>Keine OCR gefunden</pre>";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> exit(0);<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">sub alto2txt {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"># Umwandeln mit ein bisschen Layout<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">my ( $file ) = @_;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> my $parser = XML::LibXML->new();<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> my %xmls;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> my $ret;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> if( ref ( $file ) ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> $xmls{'unkown'}=$file;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> } elsif ( -f $file ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> $xmls{$file}=$parser->parse_file($file) || die "parse";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> } elsif ( -d $file ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> opendir my $DIR,$file || die "parse";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> while ( my $f = readdir($DIR) ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> next unless $f =~ /xml$/;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> #~ say $file;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> $xmls{$f}=$parser->parse_file("$file/$f") || die "parse";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> }<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> close $DIR;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> }<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> for my $k ( sort keys %xmls ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> my $obj = $xmls{$k};<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> my %text;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> for my $line ( $obj->findnodes('//*[name()="TextLine"]')) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> my $vp = $line->getAttribute("VPOS");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> ($vp) = grep { abs($_-$vp)<10 } (keys %text,$vp);<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> $text{$vp} .= ($text{$vp} ? "\t" : "");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> for my $string ( $line->findnodes('.//*[name()="String"]')) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> if ( $string->getAttribute("SUBS_TYPE") eq "HypPart1" ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> $text{$vp} .= ($text{$vp} ? " " : "").$string->getAttribute("SUBS_CONTENT");<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> } else {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> $text{$vp} .= ($text{$vp} ? " " : "").$string->getAttribute("CONTENT") unless $string->getAttribute("SUBS_TYPE") eq "HypPart2"<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> }<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> }<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> }<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> for my $key ( sort { $a <=> $b } keys %text ) {<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> $ret->{$k} .= "$text{$key}\n";<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> }<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> }<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"> return $ret;<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Mfg<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Armin Möller<o:p></o:p></span></p>
<div>
<p class="MsoNormal"><span style="font-size:10.0pt;color:#1F497D;mso-fareast-language:DE">--<br>
******************************************************************<br>
Armin Möller, Administrator<br>
Abt. IDM Ref. 2 Tel +49 30 266 432231<br>
Staatsbibliothek zu Berlin PK <br>
Potsdamer Str. 33<br>
10772 Berlin <a href="mailto:armin.moeller@sbb.spk-berlin.de"><span style="color:blue">armin.moeller@sbb.spk-berlin.de</span></a></span><span style="color:#1F497D;mso-fareast-language:DE"><o:p></o:p></span></p>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span style="mso-fareast-language:DE">Von:</span></b><span style="mso-fareast-language:DE"> kitodo-community-bounces@kitodo.org <kitodo-community-bounces@kitodo.org>
<b>Im Auftrag von </b>Weber, Frank-Ulrich<br>
<b>Gesendet:</b> Mittwoch, 30. Oktober 2019 14:13<br>
<b>An:</b> kitodo-community@kitodo.org<br>
<b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit Kitodo<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="color:black">Hallo Herr Hartwig,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">der OCR-Button ruft schlicht die unter ocrUrl konfigurierte URL auf und füllt das OCR Fenster mit deren Ausgabe.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black">(tifpath) ist ein Platzhalter und wird zur Laufzeit passen ersetzt (siehe VariableReplacer.pdf). Zusätzlich wird die Seitennummer(imgrange) angehängt.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">An dieser Stelle (ocr.php) könnten natürlich auch andere Formate eingelesen und passend ausgegeben werden.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">Beste Grüße<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:black">Frank Ulrich Weber<o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div class="MsoNormal"><span style="font-size:12.0pt;font-family:"Times New Roman",serif;mso-fareast-language:DE">
<hr size="2" width="594" style="width:445.5pt" align="left">
</span></div>
<table class="MsoNormalTable" border="0" cellpadding="0" width="0" style="width:442.5pt">
<tbody>
<tr style="height:18.75pt">
<td colspan="5" style="padding:.75pt .75pt .75pt .75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%">
<p><span style="font-size:10.0pt;font-family:"Calibri",sans-serif">Frank-Ulrich Weber
</span><span style="font-size:10.5pt;font-family:"Calibri",sans-serif"><br>
</span><span style="font-size:8.5pt;font-family:"Calibri",sans-serif">Product Manager Software Solutions
</span><span style="font-size:10.5pt;font-family:"Calibri",sans-serif"><o:p></o:p></span></p>
</td>
</tr>
<tr style="height:51.75pt">
<td width="403" style="width:300.0pt;padding:2.25pt .75pt .75pt .75pt;height:51.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%">
<p class="MsoNormal"><span style="font-size:10.5pt;mso-fareast-language:DE"><a href="http://www.zeutschel.de"><span style="text-decoration:none"><img border="0" width="180" height="45" style="width:1.875in;height:.4687in" id="_x0000_i1026" src="cid:image002.png@01D58FDB.66DA9AF0"></span></a><o:p></o:p></span></p>
</td>
<td width="38" style="width:25.5pt;padding:.75pt .75pt .75pt .75pt;height:51.75pt">
<p align="center" style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST: 100%"><span style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a href="https://twitter.com/zeutschelgmbh"><span style="text-decoration:none"><img border="0" width="34" height="34" style="width:.3541in;height:.3541in" id="_x0000_i1027" src="cid:image003.png@01D58FDB.66DA9AF0"></span></a><o:p></o:p></span></p>
</td>
<td width="38" style="width:25.5pt;padding:.75pt .75pt .75pt .75pt;height:51.75pt">
<p align="center" style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST: 100%"><span style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a href="http://www.youtube.com/user/zeutschelbookscanner"><span style="text-decoration:none"><img border="0" width="34" height="34" style="width:.3541in;height:.3541in" id="_x0000_i1028" src="cid:image004.png@01D58FDB.66DA9AF0"></span></a><o:p></o:p></span></p>
</td>
<td width="38" style="width:25.5pt;padding:.75pt .75pt .75pt .75pt;height:51.75pt">
<p align="center" style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST: 100%"><span style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a href="https://www.facebook.com/pages/Zeutschel-GmbH/193873073980288?fref=ts"><span style="text-decoration:none"><img border="0" width="34" height="34" style="width:.3541in;height:.3541in" id="_x0000_i1029" src="cid:image005.png@01D58FDB.66DA9AF0"></span></a><o:p></o:p></span></p>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:51.75pt"></td>
</tr>
<tr style="height:18.75pt">
<td valign="top" style="padding:2.25pt .75pt .75pt .75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%">
<p class="MsoNormal"><strong><span style="font-size:10.0pt;font-family:"Calibri",sans-serif;mso-fareast-language:DE">Zeutschel GmbH</span></strong><span style="font-size:10.0pt;mso-fareast-language:DE">
</span><span style="font-size:8.5pt;mso-fareast-language:DE">| Heerweg 2 | 72070 Tübingen | Deutschland
<br>
p: +49 (7071) 9706-56 | m: | f: +49 (7071) 9706-44 <br>
e: <a href="mailto:Frank-Ulrich.Weber@zeutschel.de">Frank-Ulrich.Weber@zeutschel.de</a> | w:
<a href="http://www.zeutschel.de">http://www.zeutschel.de</a> </span><span style="font-size:10.5pt;mso-fareast-language:DE"><o:p></o:p></span></p>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"></td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"></td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"></td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"></td>
</tr>
<tr style="height:18.75pt">
<td colspan="4" valign="top" style="padding:4.5pt .75pt .75pt .75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%">
<p class="MsoNormal"><span style="font-size:8.5pt;mso-fareast-language:DE">Geschäftsführer/President: Joerg Vogler | Registergericht Stuttgart: HRB 380917
</span><span style="font-size:10.5pt;mso-fareast-language:DE"><o:p></o:p></span></p>
</td>
<td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"></td>
</tr>
</tbody>
</table>
<p><span style="font-size:11.5pt;font-family:"Calibri",sans-serif"><a href="https://www.zeutschel.de/" title="Zeutschel Homepage"><span style="text-decoration:none"><img border="0" width="590" height="91" style="width:6.1458in;height:.9479in" id="_x0000_i1030" src="cid:image006.png@01D58FDB.66DA9AF0"></span></a><o:p></o:p></span></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b>Von:</b> <a href="mailto:kitodo-community-bounces@kitodo.org">
kitodo-community-bounces@kitodo.org</a> <<a href="mailto:kitodo-community-bounces@kitodo.org">kitodo-community-bounces@kitodo.org</a>>
<b>Im Auftrag von </b>Wendt, Kerstin<br>
<b>Gesendet:</b> Mittwoch, 30. Oktober 2019 13:49<br>
<b>An:</b> 'kitodo-community@kitodo.org' <<a href="mailto:kitodo-community@kitodo.org">kitodo-community@kitodo.org</a>><br>
<b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit Kitodo<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="color:#1F497D">Hallo Herr Hartwig,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">auf die Schnelle ein Bild vom „Verschollenen“ aus unserem Kitodo:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><img border="0" width="700" height="734" style="width:7.2916in;height:7.6458in" id="Grafik_x0020_1" src="cid:image007.png@01D58FDB.66DA9AF0" alt="cid:image001.png@01D58F28.9146AE90"><span style="color:#1F497D"><o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Technische Voraussetzung ist, dass im Vorgangsverzeichnis (neben den ALTO-Files) ein Verzeichnis mit reinen .txt-Dateien der OCR-Ergebnisse existiert. Wir lassen diese Textdatei zusätzlich und ohne Mehrkosten
vom OCR-Dienstleister erzeugen. Dann kommt noch ein kl. Stück Konfiguration in goobi_config.properties dazu:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">showOcrButton=true<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">ocrUrl=https://kitodo.sub.uni-hamburg.de/tools/ocr.php?path=(tifpath)<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Ich hoffe, ich habe jetzt keinen Baustein vergessen.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="color:#1F497D">Viele Grüße von Kerstin Wendt<o:p></o:p></span></p>
<div>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">--<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Kerstin Wendt<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Stabsstelle Digitalisierung<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Staats- und Universitaetsbibliothek Hamburg Carl von Ossietzky<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Von-Melle-Park 3, 20146 Hamburg
<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Telefon 040/42838-5817 | Fax : 040/41345070
<o:p></o:p></span></p>
<p class="MsoNormal" style="text-autospace:none"><span lang="EN-US" style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Mail:
</span><a href="mailto:kerstin.wendt@sub.uni-hamburg.de"><span lang="EN-US" style="font-size:10.0pt;font-family:"Arial",sans-serif">kerstin.wendt@sub.uni-hamburg.de</span></a><span lang="EN-US" style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D"><o:p></o:p></span></p>
<p class="MsoNormal"><a href="http://www.sub.uni-hamburg.de"><span style="font-size:10.0pt;font-family:"Arial",sans-serif">www.sub.uni-hamburg.de</span></a><span style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">
</span><span style="color:#1F497D"><o:p></o:p></span></p>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b>Von:</b> <a href="mailto:kitodo-community-bounces@kitodo.org">
kitodo-community-bounces@kitodo.org</a> <<a href="mailto:kitodo-community-bounces@kitodo.org">kitodo-community-bounces@kitodo.org</a>>
<b>Im Auftrag von </b>Uwe Hartwig<br>
<b>Gesendet:</b> Mittwoch, 30. Oktober 2019 13:16<br>
<b>An:</b> <a href="mailto:kitodo-community@kitodo.org">kitodo-community@kitodo.org</a><br>
<b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit Kitodo<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p>Liebe Community, lieber Herr Gerhardt,<o:p></o:p></p>
<p>ich hatte die Hoffnung, dass die Einbindung der erstellten OCR-Daten (im Format HOCR-xhtml) im Prinzip in Kitodo 2.x möglich ist und es einen Fehler in unserer Kitodo-Konfiguration gibt, die dazu führt, dass keine Daten angezeigt werden. Nun klingt das für
mich leider so, als sei diese Funktionalität schon länger verschollen.<o:p></o:p></p>
<p>Bei unserem derzeitigen Workflow haben die Mitarbeiter im VL-Manager die Möglichkeit, anhand der OC-Resultate zusätzliche Qualitätssicherungsmaßnahme einzuleiten, z.B. einen Nachscan anzufordern. Das wäre also in dieser Form nach derzeitigem Kenntnisstand
mit Kitodo 2.x nicht möglich, weil keine OCR-Daten im Metadateneditor angezeigt werden?<o:p></o:p></p>
<p><o:p> </o:p></p>
<p>Danke und Grüße!<o:p></o:p></p>
<p><o:p> </o:p></p>
<div>
<p class="MsoNormal">On 30.10.19 13:02, Henning Gerhardt wrote:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>Liebe Community, lieber Herr Hartwig,<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Kitodo.Production 2.x bringt selbst keine Werkzeuge mit, um eine<o:p></o:p></pre>
<pre>Texterkennung direkt durchzuführen und ist auf externe Dienste<o:p></o:p></pre>
<pre>angewiesen. Ein solcher Dienst versteckt sich hinter dem "OCR" Button,<o:p></o:p></pre>
<pre>der eine nicht näher spezifizierte Schnittstelle anspricht und von<o:p></o:p></pre>
<pre>dieser nicht näher spezifizierte Daten zurück bekommt. Damit soll man<o:p></o:p></pre>
<pre>dann wohl die Ergebnisse im Metadateneditor von Kitodo.Production sehen<o:p></o:p></pre>
<pre>können. Ich selbst habe in den vielen Jahren der Nutzung von<o:p></o:p></pre>
<pre>Kitodo.Production 1.x und 2.x niemals eine solche Einbindung gesehen und<o:p></o:p></pre>
<pre>/ oder erlebt.<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>An der SLUB wird die OCR selbst als eigenständiger Schritt / Aufgabe<o:p></o:p></pre>
<pre>nach der Metadaten-Bearbeitung ausgeführt. Über unseren externen OCR<o:p></o:p></pre>
<pre>Dienstleister werden die Ergebnisse als ALTO-XML zurückgeliefert und im<o:p></o:p></pre>
<pre>jeweiligen Vorgangsverzeichnis abgelegt. Beim Export werden neben den<o:p></o:p></pre>
<pre>Bild- und Metadaten auch die vorhandenen OCR Daten exportiert und an die<o:p></o:p></pre>
<pre>Präsentation auf Basis von Kitodo.Presentation übergeben.<o:p></o:p></pre>
<pre>Kitodo.Presentation stellt dann die OCR Ergebnisse dar.<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Viele Grüße<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre> Henning Gerhardt<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>On 10/30/19 11:10 AM, Uwe Hartwig wrote:<o:p></o:p></pre>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<pre>Liebe Community,<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>mal allgemein in die Runde gefragt: Wer hat Erfahrungen mit den <o:p></o:p></pre>
<pre>Texterkennungsfunktionalitäten mit Kitodo gesammelt?<o:p></o:p></pre>
<pre>Und wenn ja, mit welcher Kitodo-Version?<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Da wir bei der ULB Sachsen-Anhalt auf ALTO-XML setzen, interessiert uns <o:p></o:p></pre>
<pre>natürlich, ob Kitodo mit diesem Format etwas anfangen kann. Dazu zählt, <o:p></o:p></pre>
<pre>z.B. ob der "OCR"-Button in der Strukturierungsansicht diese Daten <o:p></o:p></pre>
<pre>entsprechend darstellen kann und ob dieses Format auch von <o:p></o:p></pre>
<pre>nachgelagerten Prozessen Richtung DMS-Export (zedExporter) verarbeitet <o:p></o:p></pre>
<pre>werden kann.<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Danke!<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre><o:p> </o:p></pre>
</blockquote>
<pre><o:p> </o:p></pre>
<p class="MsoNormal" style="margin-bottom:12.0pt"><o:p> </o:p></p>
<pre>_______________________________________________<o:p></o:p></pre>
<pre>Kitodo-Community mailing list<o:p></o:p></pre>
<pre><a href="mailto:Kitodo-Community@kitodo.org">Kitodo-Community@kitodo.org</a><o:p></o:p></pre>
<pre><a href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a><o:p></o:p></pre>
</blockquote>
<pre>-- <o:p></o:p></pre>
<pre>Uwe Hartwig<o:p></o:p></pre>
<pre>Anwendungsentwickler IT / Digitale Dienste <o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Universitäts- und Landesbibliothek Sachsen-Anhalt<o:p></o:p></pre>
<pre>August-Bebel-Straße 13<o:p></o:p></pre>
<pre>D - 06108 Halle (Saale)<o:p></o:p></pre>
<pre><o:p> </o:p></pre>
<pre>Fon: + 49 345 55 22 183<o:p></o:p></pre>
<pre>Mail: <a href="mailto:uwe.hartwig@bibliothek.uni-halle.de">uwe.hartwig@bibliothek.uni-halle.de</a><o:p></o:p></pre>
</div>
</body>
</html>