AW: Nochmals zur Phrasenindexierung

Harald Schmid harald.schmid at ksfh.de
Di Jan 11 08:53:16 CET 2005


Hallo Herr Eversberg,

> http://www.allegro-c.de/papiere/phradex.htm

nur kurz die Anmerkung: Der Text beinhaltet wieder für den Internet Explorer
unverständliche Steuerbefehle. Mit Firefox sieht es gut aus.

Viele Grüße und beste Wünsche für's neue Jahr

Harald Schmid

***             Harald Schmid              ***
    Netzwerkadministrator und EDV-Betreuer 
  Katholische Stiftungsfachhochschule München
         Abteilung Benediktbeuern
---------------------------------------------
    Don-Bosco-Str. 1, 83671 Benediktbeuern
    Tel.: 08857/88-506 - Fax: 08857/88-599
        mailto:harald.schmid at ksfh.de
***         http://www.ksfh.de/            ***
  

> -----Ursprüngliche Nachricht-----
> Von: Maiser at buch.biblio.etc.tu-bs.de 
> [mailto:Maiser at buch.biblio.etc.tu-bs.de] Im Auftrag von 
> Bernhard Eversberg
> Gesendet: Montag, 10. Januar 2005 09:21
> An: Diskussionsliste Allegro-C
> Betreff: Nochmals zur Phrasenindexierung
> 
> 
> Die Versuche mit dem VK als Großobjekt wurden nochmals 
> weitergeführt. Das Ergebnis kann man nun besichtigen. Zur 
> Einführung empfiehlt sich folgendes Papier, das auch 
> geeignete Listen von Beispielen und dazu die Links in den VK
> enthält:
> 
> http://www.allegro-c.de/papiere/phradex.htm
> 
> Besonders aus den Beispielen wird klar, daß eine reine 
> Phrasensuche wohl vorwiegend für die "known-item"-Suche 
> effektiv sein kann, aber kaum für die sachliche Suche. Eine 
> Kombination mit der booleschen Stichwortsuche jedoch, wobei 
> die Phrasen-Ergebnisse dann zuerst präsentiert würden 
> (sozusagen mit höherer "Relevanz"-Gewichtung), könnte 
> interessant sein. Man käme weg von der langweilig- 
> vorhersehbaren, chronologischen Reihung der Ergebnisse und 
> hin zu der beliebten, zwar undurchschaubaren aber subjektiv 
> manchmal überzeugenden Google-Reihung, wo man auf der ersten 
> Seite (und wenig mehr wird zur Kenntnis genommen) wenigstens 
> ein paar brauchbare Ergebnisse hat. Wir stellen anheim, sich 
> darüber Gedanken zu machen.
> 
> Die Indexparameter dazu sind nicht übermäßig kompliziert. Sie 
> stellen ferner sicher, daß die Indexdatei in der Größe nicht 
> unmäßig anschwillt, weil Artikel und andere Füllwörter ganz 
> wegfallen und die eigentlichen Wörter auf je 6 oder weniger 
> Buchstaben reduziert werden. Das Phrasenregister der 15 Mio. 
> Titel hat 86 Mio. Zweiwort-Einträge. Das ist VIEL weniger, 
> als wenn man wirklich alle Wörter und alle in voller Länge 
> paarweise indexieren wollte. Wir werden die Parameter bei 
> naechster Gelegenheit publik machen.
> 
> MfG B.E.
> 
> 
> 
> Bernhard Eversberg
> Universitaetsbibliothek, Postf. 3329,
> D-38023 Braunschweig, Germany
> Tel.  +49 531 391-5026 , -5011 , FAX  -5836 e-mail  
> B.Eversberg at tu-bs.de  
> 






Mehr Informationen über die Mailingliste Allegro