VK mit Phrasensuche

Bernhard Eversberg ev at buch.biblio.etc.tu-bs.de
Do Dez 23 09:47:31 CET 2004


Wie gestern versprochen, können wir heute einen Phrasenzugang zum VK als 
Versuchsobjekt anbieten. Indexiert sind nur 2-Wort-Phrasen, sonst wird der Index 
zu gross. Mit 2.095 Mio Byte ist er schon dicht an der Grenze - groesser als 2GB
kann er als Datei nicht werden.
Hier ist der Zugang zum Ausprobieren:
  http://www.biblio.tu-bs.de/db/vk/detail.php
und dann das entspr. Register wählen: 2-Wort-Titelphrasen

Damit haben wir erst einmal nur die Indexierung! Zu machen ist noch ein PHP-
Skript, das die Nutzereingabe, wenn es mehr als 2 Wörter sind, auseinandernimmt 
und eine entspr. Abfrage draus macht. 
Eine Anzahl von Füllwörtern fliegen raus, sind also in den Phrasen nicht 
enthalten. Praktisch sind das fast alle Stoppwörter. Dasselbe passiert mit der 
Nutzereingabe! Außerdem werden die einzelnen Wörter dann noch nach einem eigenen 
Algorithmus verkürzt, wobei z.B. die meisten Endungen verschwinden. Die 
entstehenden, reduzierten Doppelwörter sind dann immer noch i.d.R. genügend 
siginifikant, um keine zu großen und total falschen Ergebnismengen entstehen zu 
lassen.
Mehr dazu dann erst im neuen Jahr. Wer will, kann ja schon mal schauen.

Schöne Fest- und Feiertage wünscht

B.E.



Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de  




Mehr Informationen über die Mailingliste Allegro