[Allegro] Will jemand Inhaltsverzeichnisse scannen?

Michael Lackhoff michael at lackhoff.de
Mi Jun 11 17:57:22 CEST 2008


On 11.06.2008 15:57 Bernhard Eversberg wrote:

> Derzeit wohl der einzige Anbieter mit einer umfassenden Lösung ist die
> Firma agi mit ihrem Verfahren "intelligentCAPTURE":
> 
> http://www.agi-imc.de/

Ich denke, hier waere zumindest noch die Firma Imageware zu nennen.

> Wenn jemand vorhat, dergleichen zu machen und die Daten dann in
> einer allegro-Datenbank mit unterzubringen und zu indexieren, dann
> würde uns das interessieren und sicher auch andere Anwender.

Wir, d.h. die ZB MED, nehmen am sogenannten 180K Projekt des HBZ teil, 
bei dem bei uns die Inhaltsverzeichnisse von mehreren zigtausend 
(insgesamt ca. 180.000) Titeln gescannt und als OCR-Text bereitgestellt 
wurden. Allerdings haben wir uns bewusst dagegen entschieden, die Daten 
in unseren OPAC (Sisis, nicht Allegro) einzuspielen.
Grund: Entweder man nimmt die Eintraege in die freie Suche auf (Allegro: 
Stichwort- oder Kreuzregister), dann muellen einem die OCR-Daten jede 
Ergebnismenge zu. Oder man macht ein eigenes Register (= eigenes 
Suchfeld) nur fuer die OCR-Daten, dann hilft es nur den wenigen 
Experten, die ueberhaupt differenziert suchen (weit ueber 90% der 
Anfragen gehen ueber die einfache, freie Suche).

Stattdessen habe ich mit Suchmaschinentechnik (Lucene/SOLR) eine reine 
Suchdatenbank erstellt, die naechtlich aus dem OPAC aktualisiert wird 
und die dann auch die OCR-Daten enthaelt. Dort kann man mit den 
Rankingmechanismen der Suchmaschine dafuer sorgen, dass Treffer aus den 
OCR-Daten zwar gefunden werden aber weniger zaehlen als Treffer aus z.B. 
dem Titel oder Schlagwoertern. Mit etwas Feinjustierung kann man so zu 
ganz brauchbaren Ergebnissen kommen.

Eine Simulation mit Allegro waere eventuell ueber einen komplexen 
Avantijob moeglich, der zunaechst prueft, ob es Treffer in den 
"wertvolleren" Indexen gibt und nur im negativen Falle in den OCR-Daten 
sucht. Auf jeden Fall wuerde ich mir die Sache dreimal ueberlegen, bevor 
ich solche Massendaten in ein traditionelles Bibliothekssystem 
(einschliesslich Allegro) einspielen wuerde.

just my 0.02 Euro

Viele Gruesse
Michael Lackhoff




Mehr Informationen über die Mailingliste Allegro