VK mit Phrasensuche
Bernhard Eversberg
ev at buch.biblio.etc.tu-bs.de
Do Dez 23 09:47:31 CET 2004
Wie gestern versprochen, können wir heute einen Phrasenzugang zum VK als
Versuchsobjekt anbieten. Indexiert sind nur 2-Wort-Phrasen, sonst wird der Index
zu gross. Mit 2.095 Mio Byte ist er schon dicht an der Grenze - groesser als 2GB
kann er als Datei nicht werden.
Hier ist der Zugang zum Ausprobieren:
http://www.biblio.tu-bs.de/db/vk/detail.php
und dann das entspr. Register wählen: 2-Wort-Titelphrasen
Damit haben wir erst einmal nur die Indexierung! Zu machen ist noch ein PHP-
Skript, das die Nutzereingabe, wenn es mehr als 2 Wörter sind, auseinandernimmt
und eine entspr. Abfrage draus macht.
Eine Anzahl von Füllwörtern fliegen raus, sind also in den Phrasen nicht
enthalten. Praktisch sind das fast alle Stoppwörter. Dasselbe passiert mit der
Nutzereingabe! Außerdem werden die einzelnen Wörter dann noch nach einem eigenen
Algorithmus verkürzt, wobei z.B. die meisten Endungen verschwinden. Die
entstehenden, reduzierten Doppelwörter sind dann immer noch i.d.R. genügend
siginifikant, um keine zu großen und total falschen Ergebnismengen entstehen zu
lassen.
Mehr dazu dann erst im neuen Jahr. Wer will, kann ja schon mal schauen.
Schöne Fest- und Feiertage wünscht
B.E.
Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel. +49 531 391-5026 , -5011 , FAX -5836
e-mail B.Eversberg at tu-bs.de
Mehr Informationen über die Mailingliste Allegro