[Allegro] Will jemand Inhaltsverzeichnisse scannen?

Bernhard Eversberg ev at biblio.tu-bs.de
Do Jun 12 08:59:00 CEST 2008


Michael Lackhoff schrieb:
> 
> Ich denke, hier waere zumindest noch die Firma Imageware zu nennen.
> 
Und womöglich noch andere. Wir kennen uns nicht aus, sondern sehen
nur, daß da einiges passiert und Interesse besteht. Dankenswert
wäre hierzu eine Art Marktübersicht!

> Wir, d.h. die ZB MED, nehmen am sogenannten 180K Projekt des HBZ teil, 
> bei dem bei uns die Inhaltsverzeichnisse von mehreren zigtausend 
> (insgesamt ca. 180.000) Titeln gescannt und als OCR-Text bereitgestellt 
> wurden. Allerdings haben wir uns bewusst dagegen entschieden, die Daten 
> in unseren OPAC (Sisis, nicht Allegro) einzuspielen.
GBV hat ebenfalls ein verteiltes Projekt und die Verbünde arbeiten auf
dem Gebiet schon zusammen.
> Grund: Entweder man nimmt die Eintraege in die freie Suche auf (Allegro: 
> Stichwort- oder Kreuzregister), dann muellen einem die OCR-Daten jede 
> Ergebnismenge zu. Oder man macht ein eigenes Register (= eigenes 
> Suchfeld) nur fuer die OCR-Daten, dann hilft es nur den wenigen 
> Experten, die ueberhaupt differenziert suchen (weit ueber 90% der 
> Anfragen gehen ueber die einfache, freie Suche).
> 
Das stimmt natürlich alles. Fakt ist aber auch, daß die Titel nun mal
ein zu mageres Wortmaterial aufweisen und z.B. die enthaltenen Beiträge
von Festschriften und Kongressen in keiner Weise damit auffindbar sind.
Für einen "Katalog 2.0", wie man jetzt sagt, ist das zu wenig.
GBV bietet schon die Komplettsuche incl. Inhaltsverzeichnisse.

> Stattdessen habe ich mit Suchmaschinentechnik (Lucene/SOLR) eine reine 
> Suchdatenbank erstellt, die naechtlich aus dem OPAC aktualisiert wird 
> und die dann auch die OCR-Daten enthaelt.
Das ist ein zukunftsweisender und vielversprechender Ansatz, dem wir
auch schon Aufmerksamkeit widmen.

> Eine Simulation mit Allegro waere eventuell ueber einen komplexen 
> Avantijob moeglich, der zunaechst prueft, ob es Treffer in den 
> "wertvolleren" Indexen gibt und nur im negativen Falle in den OCR-Daten 
> sucht. Auf jeden Fall wuerde ich mir die Sache dreimal ueberlegen, bevor 
> ich solche Massendaten in ein traditionelles Bibliothekssystem 
> (einschliesslich Allegro) einspielen wuerde.
> 
Alles richtig. Eine Grundvoraussetzung und damit ein Potential ist mit
der MultiX-Erweiterung immerhin gegeben.

MfG B.E.




Mehr Informationen über die Mailingliste Allegro