Phrasensuche

Thomas Berger ThB at gymel.com
Do Okt 16 20:18:37 CEST 2003


Bernhard Eversberg wrote:
> 
> On 16 Oct 03, at 11:49, Thomas Fischer wrote:
> 
> > ich bin vor die Aufgabe gestellt, für unser Avanti/Allegro-System so etwas wie
> > eine Phrasensuche (über Internet) zu implementieren.
> 
> Hat mich gewundert, dass das nicht schon laengst mal gekommen ist.
> Mit der allegro-Registertechnik ist das noch schwieriger zu realisieren als die
> Links-Trunkierung. Und ich zweifle doch, ob man dafuer in aehnlicher Weise (ohne
> Eingriff in die Quellprogramme) eine Loesung aus dem Hut zaubern koennte.
> Systeme, die so etwas machen, haben dann vermutlich bei jedem Schluessel noch
> eine Zahl mit gespeichert, die die Position des betr. Wortes im Text des Satzes
> angibt. Damit ist dann vom Programm aus feststellbar, ob zwei oder mehr Woerter
> in einem gegebenen Titelsatz hintereinander stehen. Unsere Register haben keine
> solchen Angaben.
> DENKBAR waere ohne programmtechnischen Eingriff (M-Stufe 6 oder hoeher!) ein
> Doppelwort-Index, der immer zwei aufeinanderfolgende Woerter statt nur eines
> zeigen wuerde. Mir ist nicht bekannt, ob das schon mal versucht wurde. Man
> muesste den Titel etc. in einer Schleife entsprechend abarbeiten.

Ich denke, es werden ueber kombinierte Suche zunaechst die Kandidaten
gefunden (die die Worte ueberhaupt enthalten) und diese dann schnell
durchsucht. Eine Abfrage Wort1:irgendeinezahl AND
Wort2:dieselbezahlpluseins
ist ja auch in relationalen Umgebungen nicht besonders effizient.
Im Zusammenhang mit Titeldaten und ihrem sehr geringen Textmaterial
muesste man untersuchen, ob die Volltextsuche durch die Treffer 
nicht sogar effizienter ist als eine ausgefeilte Indexierung (und
man muss ueberlegen, ob eine Phrasensuche ueberhaupt Sinn macht)

Weil im Zusammenhang mit Phrasensuche dann auch Maskierung aufkommt
(Mitte-Trunkierung) geht man m.E. meist so vor: Es wird ein Index
aus Trigrammen aufgebaut, also aus "zeigen wuerde" werden Indexate
"ze, zei, eig, en, wu, wue, uer, erd, rde, de" gemacht und damit
die Kandidatensaetze gefunden (das kaeme dem Doppelwort-Index nahe).

viele gruesse
Thomas Berger




Mehr Informationen über die Mailingliste Allegro