AW: Nochmals zur Phrasenindexierung
Harald Schmid
harald.schmid at ksfh.de
Di Jan 11 08:53:16 CET 2005
Hallo Herr Eversberg,
> http://www.allegro-c.de/papiere/phradex.htm
nur kurz die Anmerkung: Der Text beinhaltet wieder für den Internet Explorer
unverständliche Steuerbefehle. Mit Firefox sieht es gut aus.
Viele Grüße und beste Wünsche für's neue Jahr
Harald Schmid
*** Harald Schmid ***
Netzwerkadministrator und EDV-Betreuer
Katholische Stiftungsfachhochschule München
Abteilung Benediktbeuern
---------------------------------------------
Don-Bosco-Str. 1, 83671 Benediktbeuern
Tel.: 08857/88-506 - Fax: 08857/88-599
mailto:harald.schmid at ksfh.de
*** http://www.ksfh.de/ ***
> -----Ursprüngliche Nachricht-----
> Von: Maiser at buch.biblio.etc.tu-bs.de
> [mailto:Maiser at buch.biblio.etc.tu-bs.de] Im Auftrag von
> Bernhard Eversberg
> Gesendet: Montag, 10. Januar 2005 09:21
> An: Diskussionsliste Allegro-C
> Betreff: Nochmals zur Phrasenindexierung
>
>
> Die Versuche mit dem VK als Großobjekt wurden nochmals
> weitergeführt. Das Ergebnis kann man nun besichtigen. Zur
> Einführung empfiehlt sich folgendes Papier, das auch
> geeignete Listen von Beispielen und dazu die Links in den VK
> enthält:
>
> http://www.allegro-c.de/papiere/phradex.htm
>
> Besonders aus den Beispielen wird klar, daß eine reine
> Phrasensuche wohl vorwiegend für die "known-item"-Suche
> effektiv sein kann, aber kaum für die sachliche Suche. Eine
> Kombination mit der booleschen Stichwortsuche jedoch, wobei
> die Phrasen-Ergebnisse dann zuerst präsentiert würden
> (sozusagen mit höherer "Relevanz"-Gewichtung), könnte
> interessant sein. Man käme weg von der langweilig-
> vorhersehbaren, chronologischen Reihung der Ergebnisse und
> hin zu der beliebten, zwar undurchschaubaren aber subjektiv
> manchmal überzeugenden Google-Reihung, wo man auf der ersten
> Seite (und wenig mehr wird zur Kenntnis genommen) wenigstens
> ein paar brauchbare Ergebnisse hat. Wir stellen anheim, sich
> darüber Gedanken zu machen.
>
> Die Indexparameter dazu sind nicht übermäßig kompliziert. Sie
> stellen ferner sicher, daß die Indexdatei in der Größe nicht
> unmäßig anschwillt, weil Artikel und andere Füllwörter ganz
> wegfallen und die eigentlichen Wörter auf je 6 oder weniger
> Buchstaben reduziert werden. Das Phrasenregister der 15 Mio.
> Titel hat 86 Mio. Zweiwort-Einträge. Das ist VIEL weniger,
> als wenn man wirklich alle Wörter und alle in voller Länge
> paarweise indexieren wollte. Wir werden die Parameter bei
> naechster Gelegenheit publik machen.
>
> MfG B.E.
>
>
>
> Bernhard Eversberg
> Universitaetsbibliothek, Postf. 3329,
> D-38023 Braunschweig, Germany
> Tel. +49 531 391-5026 , -5011 , FAX -5836 e-mail
> B.Eversberg at tu-bs.de
>
Mehr Informationen über die Mailingliste Allegro