<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <p>Liebe Community,</p>
    <p>vielen Dank für die konstruktiven Anregungen, mit deren Hilfe ich
      den Button zumindest testweise reanimieren konnte, wenn auch
      leider nicht auf dem Weg über das ocr.php-Script. <br>
      Eventuell fehlt da noch ein VHost in der Apache-Konfiguration ...<br>
    </p>
    <p>Für Kitodo-OCR nutzen wir einen externen Dienstleister, der uns
      gleichzeitig HOCR und Textdaten bereitstellt. Für's erste habe ich
      den Metadaten-Ordner in den Tomcat gelinkt, die ocrUrl angepasst
      und so die plain-Text-OCR-Daten direkt vom Tomcat geladen. Dabei
      hat sich dann als Problem gezeigt, dass die Textdaten mal als
      ASCII und mal UTF-8 erkannt werden. Damit die Zeichen in der
      Web-UI zuverlässig lesbar sind, musste ich zusätzlich einen
      WebApp-Filter integrieren, der UTF-8 als Response-Content
      erzwingt. Das ist mir zwar etwas zu kompliziert, aber es kamen
      zumindest Daten in die Ansicht.<br>
    </p>
    <p><br>
    </p>
    <p>Viele Grüße!</p>
    <p><br>
    </p>
    <div class="moz-cite-prefix">On 31.10.19 11:17, Möller, Armin wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:d5aa02a312b442eaad1d48868cccb9d8@sbb.spk-berlin.de">
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
      <meta name="Generator" content="Microsoft Word 15 (filtered
        medium)">
      <!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]-->
      <style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
p.MsoPlainText, li.MsoPlainText, div.MsoPlainText
        {mso-style-priority:99;
        mso-style-link:"Nur Text Zchn";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
p
        {mso-style-priority:99;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
pre
        {mso-style-priority:99;
        mso-style-link:"HTML Vorformatiert Zchn";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:10.0pt;
        font-family:"Courier New";}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
span.E-MailFormatvorlage18
        {mso-style-type:personal;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
span.HTMLVorformatiertZchn
        {mso-style-name:"HTML Vorformatiert Zchn";
        mso-style-priority:99;
        mso-style-link:"HTML Vorformatiert";
        font-family:Consolas;
        mso-fareast-language:EN-US;}
span.E-MailFormatvorlage23
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:#1F497D;}
span.NurTextZchn
        {mso-style-name:"Nur Text Zchn";
        mso-style-priority:99;
        mso-style-link:"Nur Text";
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
      <div class="WordSection1">
        <p class="MsoPlainText">Liebe Community,<o:p></o:p></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">ich kann die
            Funktion bestätigen. Ich habe den OCR-Button bei uns auch
            implementiert. Dazu noch ein paar Anmerkungen.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Ich habe ein
            Script das ALTO in eine TXT-Datei wandelt und ausgibt. Dabei
            ist aufgefallen das allen Zeilenumbrüche in der Anzeige
            entfernt werden.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Also liefere
            ich HTML aus mit <pre>Datei</pre> das sieht dann
            deutlich besser aus. Da ich das ALTO-Verzeichnis benötige
            wäre es schön wenn der VariableReplacer auch ocraltopath
            liefern würde. Jetzt ändere ich einfach bei ocrplaintextpath
             „_txt/$“ in „_alto/“ um und fertig.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Damit spare ich
            noch doppelte Datenhaltung von ALTO- und txt-Dateien.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Eintrag in
            goobi_config.properties<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">showOcrButton=true<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">ocrUrl=<a class="moz-txt-link-freetext" href="http://b-digiwf-1.sbb.spk-berlin.de/cgi-bin/pres/gib_ocr.pl?ocrtxtpath=(ocrplaintextpath)">http://b-digiwf-1.sbb.spk-berlin.de/cgi-bin/pres/gib_ocr.pl?ocrtxtpath=(ocrplaintextpath)</a><o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Anbei noch das
            Perl-Script<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">#!/usr/bin/perl<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"># -*- coding:
            utf-8 -*-<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">#Programm
            einchecken<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">use feature
            ":5.10";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">use strict;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">use CGI qw/
            :all -debug /;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">use
            XML::LibXML;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">use
            HTML::Entities;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">if(
            !defined(param("ocrtxtpath")) or !defined(param("imgrange"))
            ){<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            fehlerr( "falscher Aufruf " ) ;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">}             
            <o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">my $ocrpath =
            param("ocrtxtpath");<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">my $bild =
            param("imgrange");<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"># Umwandeln von
            OCR-TXT nach OCR_ALTO<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">$ocrpath =~
            s#_txt/$#_alto/#;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">my $file =
            "$ocrpath".sprintf("%08d",$bild).".xml";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">if( ! -f $file
            ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            fehlerr( "OCR $file ist nicht in der Präsentation");<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"># Umwaldenl von
            ALTO in TXT<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">my $tmp =
            alto2txt($file); <o:p>
            </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">binmode(
            STDOUT,':utf8');<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"># ON the fly
             TXT to HTML pre-formatet<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">print STDOUT
            "Content-Type: text/html;
charset=UTF-8\n\n<pre>".encode_entities($tmp->{$file})."</pre>";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">sub fehlerr {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            print STDOUT "Content-Type: text/html;
            charset=UTF-8\n\n<pre>Keine OCR gefunden</pre>";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            exit(0);<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">sub alto2txt {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"># Umwandeln mit
            ein bisschen Layout<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">my ( $file ) =
            @_;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            my $parser = XML::LibXML->new();<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            my %xmls;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            my $ret;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            if( ref ( $file )  ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            $xmls{'unkown'}=$file;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            } elsif ( -f $file ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            $xmls{$file}=$parser->parse_file($file) || die "parse";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            } elsif ( -d $file ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            opendir my $DIR,$file || die "parse";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            while ( my $f = readdir($DIR) ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            next unless $f =~ /xml$/;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            #~ say $file;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            $xmls{$f}=$parser->parse_file("$file/$f") || die "parse";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            }<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            close $DIR;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            }<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            for my $k ( sort keys %xmls ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            my $obj = $xmls{$k};<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            my %text;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            for my $line ( $obj->findnodes('//*[name()="TextLine"]'))
            {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            my $vp = $line->getAttribute("VPOS");<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            ($vp) = grep { abs($_-$vp)<10  } (keys %text,$vp);<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            $text{$vp} .=  ($text{$vp} ? "\t" : "");<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            for my $string (
            $line->findnodes('.//*[name()="String"]')) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                                              
            if ( $string->getAttribute("SUBS_TYPE") eq "HypPart1" ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                                                              
            $text{$vp} .= ($text{$vp} ? " " :
            "").$string->getAttribute("SUBS_CONTENT");<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                                              
            } else {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                                                              
            $text{$vp} .= ($text{$vp} ? " " :
            "").$string->getAttribute("CONTENT") unless
            $string->getAttribute("SUBS_TYPE") eq "HypPart2"<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                                              
            }<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            }<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            }<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            for my $key ( sort { $a <=> $b } keys %text ) {<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                                              
            $ret->{$k} .= "$text{$key}\n";<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">                              
            }<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            }<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">               
            return $ret;<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">}<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Mfg<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Armin Möller<o:p></o:p></span></p>
        <div>
          <p class="MsoNormal"><span
              style="font-size:10.0pt;color:#1F497D;mso-fareast-language:DE">--<br>
******************************************************************<br>
              Armin Möller,                     Administrator<br>
              Abt. IDM Ref. 2                 Tel +49 30 266 432231<br>
              Staatsbibliothek zu Berlin PK  <br>
              Potsdamer Str. 33<br>
              10772 Berlin                         <a
                href="mailto:armin.moeller@sbb.spk-berlin.de"
                moz-do-not-send="true"><span style="color:blue">armin.moeller@sbb.spk-berlin.de</span></a></span><span
              style="color:#1F497D;mso-fareast-language:DE"><o:p></o:p></span></p>
        </div>
        <p class="MsoNormal"><o:p> </o:p></p>
        <div>
          <div style="border:none;border-top:solid #E1E1E1
            1.0pt;padding:3.0pt 0cm 0cm 0cm">
            <p class="MsoNormal"><b><span
                  style="mso-fareast-language:DE">Von:</span></b><span
                style="mso-fareast-language:DE">
                <a class="moz-txt-link-abbreviated" href="mailto:kitodo-community-bounces@kitodo.org">kitodo-community-bounces@kitodo.org</a>
                <a class="moz-txt-link-rfc2396E" href="mailto:kitodo-community-bounces@kitodo.org"><kitodo-community-bounces@kitodo.org></a>
                <b>Im Auftrag von </b>Weber, Frank-Ulrich<br>
                <b>Gesendet:</b> Mittwoch, 30. Oktober 2019 14:13<br>
                <b>An:</b> <a class="moz-txt-link-abbreviated" href="mailto:kitodo-community@kitodo.org">kitodo-community@kitodo.org</a><br>
                <b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit
                Kitodo<o:p></o:p></span></p>
          </div>
        </div>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal"><span style="color:black">Hallo Herr
            Hartwig,<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:black">der OCR-Button
            ruft schlicht die unter ocrUrl konfigurierte URL auf und
            füllt das OCR Fenster mit deren Ausgabe.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:black">(tifpath) ist ein
            Platzhalter und wird zur Laufzeit passen ersetzt (siehe
            VariableReplacer.pdf). Zusätzlich wird die
            Seitennummer(imgrange) angehängt.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:black">An dieser Stelle
            (ocr.php) könnten natürlich auch andere Formate eingelesen
            und passend ausgegeben werden.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:black">Beste Grüße<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:black"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:black">Frank Ulrich
            Weber<o:p></o:p></span></p>
        <p class="MsoNormal"><o:p> </o:p></p>
        <div class="MsoNormal"><span
            style="font-size:12.0pt;font-family:"Times New
            Roman",serif;mso-fareast-language:DE">
            <hr style="width:445.5pt" width="594" size="2" align="left">
          </span></div>
        <table class="MsoNormalTable" style="width:442.5pt" width="0"
          cellpadding="0" border="0">
          <tbody>
            <tr style="height:18.75pt">
              <td colspan="5" style="padding:.75pt .75pt .75pt
                .75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%">
                <p><span
                    style="font-size:10.0pt;font-family:"Calibri",sans-serif">Frank-Ulrich
                    Weber
                  </span><span
                    style="font-size:10.5pt;font-family:"Calibri",sans-serif"><br>
                  </span><span
                    style="font-size:8.5pt;font-family:"Calibri",sans-serif">Product
                    Manager Software Solutions
                  </span><span
                    style="font-size:10.5pt;font-family:"Calibri",sans-serif"><o:p></o:p></span></p>
              </td>
            </tr>
            <tr style="height:51.75pt">
              <td style="width:300.0pt;padding:2.25pt .75pt .75pt
                .75pt;height:51.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%"
                width="403">
                <p class="MsoNormal"><span
                    style="font-size:10.5pt;mso-fareast-language:DE"><a
                      href="http://www.zeutschel.de"
                      moz-do-not-send="true"><span
                        style="text-decoration:none"><img
                          style="width:1.875in;height:.4687in"
                          id="_x0000_i1026"
                          src="cid:part2.670B711D.D9945552@bibliothek.uni-halle.de"
                          class="" width="180" height="45" border="0"></span></a><o:p></o:p></span></p>
              </td>
              <td style="width:25.5pt;padding:.75pt .75pt .75pt
                .75pt;height:51.75pt" width="38">
                <p style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST:
                  100%" align="center"><span
                    style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a
                      href="https://twitter.com/zeutschelgmbh"
                      moz-do-not-send="true"><span
                        style="text-decoration:none"><img
                          style="width:.3541in;height:.3541in"
                          id="_x0000_i1027"
                          src="cid:part4.667F05B8.FC58F4CA@bibliothek.uni-halle.de"
                          class="" width="34" height="34" border="0"></span></a><o:p></o:p></span></p>
              </td>
              <td style="width:25.5pt;padding:.75pt .75pt .75pt
                .75pt;height:51.75pt" width="38">
                <p style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST:
                  100%" align="center"><span
                    style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a
href="http://www.youtube.com/user/zeutschelbookscanner"
                      moz-do-not-send="true"><span
                        style="text-decoration:none"><img
                          style="width:.3541in;height:.3541in"
                          id="_x0000_i1028"
                          src="cid:part6.17943F6D.F328589B@bibliothek.uni-halle.de"
                          class="" width="34" height="34" border="0"></span></a><o:p></o:p></span></p>
              </td>
              <td style="width:25.5pt;padding:.75pt .75pt .75pt
                .75pt;height:51.75pt" width="38">
                <p style="text-align:center;-WEBKIT-TEXT-SIZE-ADJUST:
                  100%" align="center"><span
                    style="font-size:10.5pt;font-family:"Calibri",sans-serif"><a
href="https://www.facebook.com/pages/Zeutschel-GmbH/193873073980288?fref=ts"
                      moz-do-not-send="true"><span
                        style="text-decoration:none"><img
                          style="width:.3541in;height:.3541in"
                          id="_x0000_i1029"
                          src="cid:part8.99EC8AAA.1D6B4602@bibliothek.uni-halle.de"
                          class="" width="34" height="34" border="0"></span></a><o:p></o:p></span></p>
              </td>
              <td style="padding:.75pt .75pt .75pt .75pt;height:51.75pt"><br>
              </td>
            </tr>
            <tr style="height:18.75pt">
              <td style="padding:2.25pt .75pt .75pt
                .75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%"
                valign="top">
                <p class="MsoNormal"><strong><span
style="font-size:10.0pt;font-family:"Calibri",sans-serif;mso-fareast-language:DE">Zeutschel
                      GmbH</span></strong><span
                    style="font-size:10.0pt;mso-fareast-language:DE">
                  </span><span
                    style="font-size:8.5pt;mso-fareast-language:DE">|
                    Heerweg 2 | 72070 Tübingen | Deutschland
                    <br>
                    p: +49 (7071) 9706-56 | m: | f: +49 (7071) 9706-44 <br>
                    e: <a href="mailto:Frank-Ulrich.Weber@zeutschel.de"
                      moz-do-not-send="true">Frank-Ulrich.Weber@zeutschel.de</a>
                    | w:
                    <a href="http://www.zeutschel.de"
                      moz-do-not-send="true">http://www.zeutschel.de</a>
                  </span><span
                    style="font-size:10.5pt;mso-fareast-language:DE"><o:p></o:p></span></p>
              </td>
              <td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
              </td>
              <td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
              </td>
              <td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
              </td>
              <td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
              </td>
            </tr>
            <tr style="height:18.75pt">
              <td colspan="4" style="padding:4.5pt .75pt .75pt
                .75pt;height:18.75pt;-WEBKIT-TEXT-SIZE-ADJUST: 100%"
                valign="top">
                <p class="MsoNormal"><span
                    style="font-size:8.5pt;mso-fareast-language:DE">Geschäftsführer/President:
                    Joerg Vogler | Registergericht Stuttgart: HRB 380917
                  </span><span
                    style="font-size:10.5pt;mso-fareast-language:DE"><o:p></o:p></span></p>
              </td>
              <td style="padding:.75pt .75pt .75pt .75pt;height:18.75pt"><br>
              </td>
            </tr>
          </tbody>
        </table>
        <p><span
            style="font-size:11.5pt;font-family:"Calibri",sans-serif"><a
              href="https://www.zeutschel.de/" title="Zeutschel
              Homepage" moz-do-not-send="true"><span
                style="text-decoration:none"><img
                  style="width:6.1458in;height:.9479in"
                  id="_x0000_i1030"
                  src="cid:part12.747F6E45.A2D380F6@bibliothek.uni-halle.de"
                  class="" width="590" height="91" border="0"></span></a><o:p></o:p></span></p>
        <div>
          <div style="border:none;border-top:solid #E1E1E1
            1.0pt;padding:3.0pt 0cm 0cm 0cm">
            <p class="MsoNormal"><b>Von:</b> <a
                href="mailto:kitodo-community-bounces@kitodo.org"
                moz-do-not-send="true">
                kitodo-community-bounces@kitodo.org</a> <<a
                href="mailto:kitodo-community-bounces@kitodo.org"
                moz-do-not-send="true">kitodo-community-bounces@kitodo.org</a>>
              <b>Im Auftrag von </b>Wendt, Kerstin<br>
              <b>Gesendet:</b> Mittwoch, 30. Oktober 2019 13:49<br>
              <b>An:</b> '<a class="moz-txt-link-abbreviated" href="mailto:kitodo-community@kitodo.org">kitodo-community@kitodo.org</a>' <<a
                href="mailto:kitodo-community@kitodo.org"
                moz-do-not-send="true">kitodo-community@kitodo.org</a>><br>
              <b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit
              Kitodo<o:p></o:p></p>
          </div>
        </div>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal"><span style="color:#1F497D">Hallo Herr
            Hartwig,<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">auf die
            Schnelle ein Bild vom „Verschollenen“ aus unserem Kitodo:<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><img style="width:7.2916in;height:7.6458in"
            id="Grafik_x0020_1"
            src="cid:part17.5ADBB53D.DA4BC8CD@bibliothek.uni-halle.de"
            alt="cid:image001.png@01D58F28.9146AE90" class=""
            width="700" height="734" border="0"><span
            style="color:#1F497D"><o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Technische
            Voraussetzung ist, dass im Vorgangsverzeichnis (neben den
            ALTO-Files)  ein Verzeichnis mit reinen .txt-Dateien der
            OCR-Ergebnisse existiert. Wir lassen diese Textdatei
            zusätzlich und ohne Mehrkosten vom OCR-Dienstleister
            erzeugen. Dann kommt noch ein kl. Stück Konfiguration in
            goobi_config.properties dazu:<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">showOcrButton=true<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">ocrUrl=<a class="moz-txt-link-freetext" href="https://kitodo.sub.uni-hamburg.de/tools/ocr.php?path=(tifpath)">https://kitodo.sub.uni-hamburg.de/tools/ocr.php?path=(tifpath)</a><o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Ich hoffe, ich
            habe jetzt keinen Baustein vergessen.<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="color:#1F497D">Viele Grüße von
            Kerstin Wendt<o:p></o:p></span></p>
        <div>
          <p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">--<o:p></o:p></span></p>
          <p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Kerstin
              Wendt<o:p></o:p></span></p>
          <p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Stabsstelle
              Digitalisierung<o:p></o:p></span></p>
          <p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Staats-
              und Universitaetsbibliothek Hamburg Carl von Ossietzky<o:p></o:p></span></p>
          <p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Von-Melle-Park
              3, 20146 Hamburg 
              <o:p></o:p></span></p>
          <p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">Telefon
              040/42838-5817 | Fax : 040/41345070                
              <o:p></o:p></span></p>
          <p class="MsoNormal" style="text-autospace:none"><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D"
              lang="EN-US">Mail:
            </span><a href="mailto:kerstin.wendt@sub.uni-hamburg.de"
              moz-do-not-send="true"><span
                style="font-size:10.0pt;font-family:"Arial",sans-serif"
                lang="EN-US">kerstin.wendt@sub.uni-hamburg.de</span></a><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D"
              lang="EN-US"><o:p></o:p></span></p>
          <p class="MsoNormal"><a href="http://www.sub.uni-hamburg.de"
              moz-do-not-send="true"><span
                style="font-size:10.0pt;font-family:"Arial",sans-serif">www.sub.uni-hamburg.de</span></a><span
style="font-size:10.0pt;font-family:"Arial",sans-serif;color:#1F497D">  
            </span><span style="color:#1F497D"><o:p></o:p></span></p>
        </div>
        <p class="MsoNormal"><o:p> </o:p></p>
        <div>
          <div style="border:none;border-top:solid #E1E1E1
            1.0pt;padding:3.0pt 0cm 0cm 0cm">
            <p class="MsoNormal"><b>Von:</b> <a
                href="mailto:kitodo-community-bounces@kitodo.org"
                moz-do-not-send="true">
                kitodo-community-bounces@kitodo.org</a> <<a
                href="mailto:kitodo-community-bounces@kitodo.org"
                moz-do-not-send="true">kitodo-community-bounces@kitodo.org</a>>
              <b>Im Auftrag von </b>Uwe Hartwig<br>
              <b>Gesendet:</b> Mittwoch, 30. Oktober 2019 13:16<br>
              <b>An:</b> <a href="mailto:kitodo-community@kitodo.org"
                moz-do-not-send="true">kitodo-community@kitodo.org</a><br>
              <b>Betreff:</b> Re: [Kitodo] [OCR] Texterkennung mit
              Kitodo<o:p></o:p></p>
          </div>
        </div>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p>Liebe Community, lieber Herr Gerhardt,<o:p></o:p></p>
        <p>ich hatte die Hoffnung, dass die Einbindung der erstellten
          OCR-Daten (im Format HOCR-xhtml) im Prinzip in Kitodo 2.x
          möglich ist und es einen Fehler in unserer
          Kitodo-Konfiguration gibt, die dazu führt, dass keine Daten
          angezeigt werden. Nun klingt das für mich leider so, als sei
          diese Funktionalität schon länger verschollen.<o:p></o:p></p>
        <p>Bei unserem derzeitigen Workflow haben die Mitarbeiter im
          VL-Manager die Möglichkeit, anhand der OC-Resultate
          zusätzliche Qualitätssicherungsmaßnahme einzuleiten, z.B.
          einen Nachscan anzufordern. Das wäre also in dieser Form nach
          derzeitigem Kenntnisstand mit Kitodo 2.x nicht möglich, weil
          keine OCR-Daten im Metadateneditor angezeigt werden?<o:p></o:p></p>
        <p><o:p> </o:p></p>
        <p>Danke und Grüße!<o:p></o:p></p>
        <p><o:p> </o:p></p>
        <div>
          <p class="MsoNormal">On 30.10.19 13:02, Henning Gerhardt
            wrote:<o:p></o:p></p>
        </div>
        <blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
          <pre>Liebe Community, lieber Herr Hartwig,<o:p></o:p></pre>
          <pre><o:p> </o:p></pre>
          <pre>Kitodo.Production 2.x bringt selbst keine Werkzeuge mit, um eine<o:p></o:p></pre>
          <pre>Texterkennung direkt durchzuführen und ist auf externe Dienste<o:p></o:p></pre>
          <pre>angewiesen. Ein solcher Dienst versteckt sich hinter dem "OCR" Button,<o:p></o:p></pre>
          <pre>der eine nicht näher spezifizierte Schnittstelle anspricht und von<o:p></o:p></pre>
          <pre>dieser nicht näher spezifizierte Daten zurück bekommt. Damit soll man<o:p></o:p></pre>
          <pre>dann wohl die Ergebnisse im Metadateneditor von Kitodo.Production sehen<o:p></o:p></pre>
          <pre>können. Ich selbst habe in den vielen Jahren der Nutzung von<o:p></o:p></pre>
          <pre>Kitodo.Production 1.x und 2.x niemals eine solche Einbindung gesehen und<o:p></o:p></pre>
          <pre>/ oder erlebt.<o:p></o:p></pre>
          <pre><o:p> </o:p></pre>
          <pre>An der SLUB wird die OCR selbst als eigenständiger Schritt / Aufgabe<o:p></o:p></pre>
          <pre>nach der Metadaten-Bearbeitung ausgeführt. Über unseren externen OCR<o:p></o:p></pre>
          <pre>Dienstleister werden die Ergebnisse als ALTO-XML zurückgeliefert und im<o:p></o:p></pre>
          <pre>jeweiligen Vorgangsverzeichnis abgelegt. Beim Export werden neben den<o:p></o:p></pre>
          <pre>Bild- und Metadaten auch die vorhandenen OCR Daten exportiert und an die<o:p></o:p></pre>
          <pre>Präsentation auf Basis von Kitodo.Presentation übergeben.<o:p></o:p></pre>
          <pre>Kitodo.Presentation stellt dann die OCR Ergebnisse dar.<o:p></o:p></pre>
          <pre><o:p> </o:p></pre>
          <pre><o:p> </o:p></pre>
          <pre>Viele Grüße<o:p></o:p></pre>
          <pre><o:p> </o:p></pre>
          <pre>    Henning Gerhardt<o:p></o:p></pre>
          <pre><o:p> </o:p></pre>
          <pre>On 10/30/19 11:10 AM, Uwe Hartwig wrote:<o:p></o:p></pre>
          <blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
            <pre>Liebe Community,<o:p></o:p></pre>
            <pre><o:p> </o:p></pre>
            <pre>mal allgemein in die Runde gefragt: Wer hat Erfahrungen mit den <o:p></o:p></pre>
            <pre>Texterkennungsfunktionalitäten mit Kitodo gesammelt?<o:p></o:p></pre>
            <pre>Und wenn ja, mit welcher Kitodo-Version?<o:p></o:p></pre>
            <pre><o:p> </o:p></pre>
            <pre>Da wir bei der ULB Sachsen-Anhalt auf ALTO-XML setzen, interessiert uns <o:p></o:p></pre>
            <pre>natürlich, ob Kitodo mit diesem Format etwas anfangen kann. Dazu zählt, <o:p></o:p></pre>
            <pre>z.B. ob der "OCR"-Button in der Strukturierungsansicht diese Daten <o:p></o:p></pre>
            <pre>entsprechend darstellen kann und ob dieses Format auch von <o:p></o:p></pre>
            <pre>nachgelagerten Prozessen Richtung DMS-Export (zedExporter) verarbeitet <o:p></o:p></pre>
            <pre>werden kann.<o:p></o:p></pre>
            <pre><o:p> </o:p></pre>
            <pre>Danke!<o:p></o:p></pre>
            <pre><o:p> </o:p></pre>
            <pre><o:p> </o:p></pre>
          </blockquote>
          <pre><o:p> </o:p></pre>
          <p class="MsoNormal" style="margin-bottom:12.0pt"><o:p> </o:p></p>
          <pre>_______________________________________________<o:p></o:p></pre>
          <pre>Kitodo-Community mailing list<o:p></o:p></pre>
          <pre><a href="mailto:Kitodo-Community@kitodo.org" moz-do-not-send="true">Kitodo-Community@kitodo.org</a><o:p></o:p></pre>
          <pre><a href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community" moz-do-not-send="true">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a><o:p></o:p></pre>
        </blockquote>
        <pre>-- <o:p></o:p></pre>
        <pre>Uwe Hartwig<o:p></o:p></pre>
        <pre>Anwendungsentwickler IT / Digitale Dienste <o:p></o:p></pre>
        <pre><o:p> </o:p></pre>
        <pre>Universitäts- und Landesbibliothek Sachsen-Anhalt<o:p></o:p></pre>
        <pre>August-Bebel-Straße 13<o:p></o:p></pre>
        <pre>D - 06108 Halle (Saale)<o:p></o:p></pre>
        <pre><o:p> </o:p></pre>
        <pre>Fon: + 49 345 55 22 183<o:p></o:p></pre>
        <pre>Mail: <a href="mailto:uwe.hartwig@bibliothek.uni-halle.de" moz-do-not-send="true">uwe.hartwig@bibliothek.uni-halle.de</a><o:p></o:p></pre>
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <pre class="moz-quote-pre" wrap="">_______________________________________________
Kitodo-Community mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Kitodo-Community@kitodo.org">Kitodo-Community@kitodo.org</a>
<a class="moz-txt-link-freetext" href="https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community">https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community</a>
</pre>
    </blockquote>
    <pre class="moz-signature" cols="72">-- 
Uwe Hartwig
Anwendungsentwickler IT / Digitale Dienste 

Universitäts- und Landesbibliothek Sachsen-Anhalt
August-Bebel-Straße 13
D - 06108 Halle (Saale)

Fon: + 49 345 55 22 183
Mail: <a class="moz-txt-link-abbreviated" href="mailto:uwe.hartwig@bibliothek.uni-halle.de">uwe.hartwig@bibliothek.uni-halle.de</a></pre>
  </body>
</html>