Nochmals zur Phrasenindexierung
Bernhard Eversberg
ev at buch.biblio.etc.tu-bs.de
Mo Jan 10 09:21:17 CET 2005
Die Versuche mit dem VK als Großobjekt wurden nochmals weitergeführt. Das
Ergebnis kann man nun besichtigen. Zur Einführung empfiehlt sich folgendes
Papier, das auch geeignete Listen von Beispielen und dazu die Links in den VK
enthält:
http://www.allegro-c.de/papiere/phradex.htm
Besonders aus den Beispielen wird klar, daß eine reine Phrasensuche wohl
vorwiegend für die "known-item"-Suche effektiv sein kann, aber kaum für die
sachliche Suche. Eine Kombination mit der booleschen Stichwortsuche jedoch, wobei
die Phrasen-Ergebnisse dann zuerst präsentiert würden (sozusagen mit höherer
"Relevanz"-Gewichtung), könnte interessant sein. Man käme weg von der langweilig-
vorhersehbaren, chronologischen Reihung der Ergebnisse und hin zu der beliebten,
zwar undurchschaubaren aber subjektiv manchmal überzeugenden Google-Reihung, wo
man auf der ersten Seite (und wenig mehr wird zur Kenntnis genommen) wenigstens
ein paar brauchbare Ergebnisse hat. Wir stellen anheim, sich darüber Gedanken zu
machen.
Die Indexparameter dazu sind nicht übermäßig kompliziert. Sie stellen ferner
sicher, daß die Indexdatei in der Größe nicht unmäßig anschwillt, weil Artikel
und andere Füllwörter ganz wegfallen und die eigentlichen Wörter auf je 6 oder
weniger Buchstaben reduziert werden. Das Phrasenregister der 15 Mio. Titel hat 86
Mio. Zweiwort-Einträge. Das ist VIEL weniger, als wenn man wirklich alle Wörter
und alle in voller Länge paarweise indexieren wollte. Wir werden die Parameter
bei naechster Gelegenheit publik machen.
MfG B.E.
Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel. +49 531 391-5026 , -5011 , FAX -5836
e-mail B.Eversberg at tu-bs.de
Mehr Informationen über die Mailingliste Allegro