Nochmals zur Phrasenindexierung

Bernhard Eversberg ev at buch.biblio.etc.tu-bs.de
Mo Jan 10 09:21:17 CET 2005


Die Versuche mit dem VK als Großobjekt wurden nochmals weitergeführt. Das 
Ergebnis kann man nun besichtigen. Zur Einführung empfiehlt sich folgendes 
Papier, das auch geeignete Listen von Beispielen und dazu die Links in den VK 
enthält:

http://www.allegro-c.de/papiere/phradex.htm

Besonders aus den Beispielen wird klar, daß eine reine Phrasensuche wohl 
vorwiegend für die "known-item"-Suche effektiv sein kann, aber kaum für die 
sachliche Suche. Eine Kombination mit der booleschen Stichwortsuche jedoch, wobei 
die Phrasen-Ergebnisse dann zuerst präsentiert würden (sozusagen mit höherer 
"Relevanz"-Gewichtung), könnte interessant sein. Man käme weg von der langweilig-
vorhersehbaren, chronologischen Reihung der Ergebnisse und hin zu der beliebten, 
zwar undurchschaubaren aber subjektiv manchmal überzeugenden Google-Reihung, wo 
man auf der ersten Seite (und wenig mehr wird zur Kenntnis genommen) wenigstens 
ein paar brauchbare Ergebnisse hat. Wir stellen anheim, sich darüber Gedanken zu 
machen.

Die Indexparameter dazu sind nicht übermäßig kompliziert. Sie stellen ferner 
sicher, daß die Indexdatei in der Größe nicht unmäßig anschwillt, weil Artikel 
und andere Füllwörter ganz wegfallen und die eigentlichen Wörter auf je 6 oder 
weniger Buchstaben reduziert werden. Das Phrasenregister der 15 Mio. Titel hat 86 
Mio. Zweiwort-Einträge. Das ist VIEL weniger, als wenn man wirklich alle Wörter 
und alle in voller Länge paarweise indexieren wollte. Wir werden die Parameter 
bei naechster Gelegenheit publik machen.

MfG B.E.



Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de  




Mehr Informationen über die Mailingliste Allegro