[Allegro] Will jemand Inhaltsverzeichnisse scannen?
Michael Lackhoff
michael at lackhoff.de
Mi Jun 11 17:57:22 CEST 2008
On 11.06.2008 15:57 Bernhard Eversberg wrote:
> Derzeit wohl der einzige Anbieter mit einer umfassenden Lösung ist die
> Firma agi mit ihrem Verfahren "intelligentCAPTURE":
>
> http://www.agi-imc.de/
Ich denke, hier waere zumindest noch die Firma Imageware zu nennen.
> Wenn jemand vorhat, dergleichen zu machen und die Daten dann in
> einer allegro-Datenbank mit unterzubringen und zu indexieren, dann
> würde uns das interessieren und sicher auch andere Anwender.
Wir, d.h. die ZB MED, nehmen am sogenannten 180K Projekt des HBZ teil,
bei dem bei uns die Inhaltsverzeichnisse von mehreren zigtausend
(insgesamt ca. 180.000) Titeln gescannt und als OCR-Text bereitgestellt
wurden. Allerdings haben wir uns bewusst dagegen entschieden, die Daten
in unseren OPAC (Sisis, nicht Allegro) einzuspielen.
Grund: Entweder man nimmt die Eintraege in die freie Suche auf (Allegro:
Stichwort- oder Kreuzregister), dann muellen einem die OCR-Daten jede
Ergebnismenge zu. Oder man macht ein eigenes Register (= eigenes
Suchfeld) nur fuer die OCR-Daten, dann hilft es nur den wenigen
Experten, die ueberhaupt differenziert suchen (weit ueber 90% der
Anfragen gehen ueber die einfache, freie Suche).
Stattdessen habe ich mit Suchmaschinentechnik (Lucene/SOLR) eine reine
Suchdatenbank erstellt, die naechtlich aus dem OPAC aktualisiert wird
und die dann auch die OCR-Daten enthaelt. Dort kann man mit den
Rankingmechanismen der Suchmaschine dafuer sorgen, dass Treffer aus den
OCR-Daten zwar gefunden werden aber weniger zaehlen als Treffer aus z.B.
dem Titel oder Schlagwoertern. Mit etwas Feinjustierung kann man so zu
ganz brauchbaren Ergebnissen kommen.
Eine Simulation mit Allegro waere eventuell ueber einen komplexen
Avantijob moeglich, der zunaechst prueft, ob es Treffer in den
"wertvolleren" Indexen gibt und nur im negativen Falle in den OCR-Daten
sucht. Auf jeden Fall wuerde ich mir die Sache dreimal ueberlegen, bevor
ich solche Massendaten in ein traditionelles Bibliothekssystem
(einschliesslich Allegro) einspielen wuerde.
just my 0.02 Euro
Viele Gruesse
Michael Lackhoff
Mehr Informationen über die Mailingliste Allegro