[Allegro] Innovatives Indexkonzept fuer das N-Format

Bernhard Eversberg ev at biblio.tu-bs.de
Do Jan 12 17:22:52 CET 2006


Neues Indexierungs- und Suchkonzept für das Neutralformat

Bis heute noch streng unter Verschluß war der neue Ansatz zur
Indexierung und Suche, den wir mit der N-Entwicklung verbunden
hatten. Nun ist es soweit und man kann es ausprobieren!

Die Neutraldatenbank hat zwei Register, die stark von gewohnten
Konzepten abweichen:

1. Allgemeines Wortregister, teilw. linkstrunkiert
    Hierin stehen nicht nur die Titelwörter, sondern auch alle Wörter
    aus den Namens- und Schlagwortfeldern sowie aus Gesamttiteln.
    Die Titelwörter sind zusätzlich mit der Linkstrunkierungsmethode
    indexiert:
 
http://sun250.biblio.etc.tu-bs.de/pipermail/allegro/2001-March/011165.html

2. Innovation: Titel-Phrasenregister
    Die ja besonders signifikanten Titelwörter sind hier nochmals
    indexiert, aber hier nur Wortpaare, also jeweils die direkt
    aufeinanderfolgenden Wörter. Dabei werden etliche zusätzliche
    Manipulationen ausgeführt, so daß sich sinnvolle Kurzphrasen
    ergeben. Mehr dazu::
       http://www.allegro-c.de/papiere/phradex.htm

Nummer drei ist das Register der Titelanfänge, vier sind die
Personennamen, 5-10 entsprechen im wesentlichen den bekannten
A-Registern.

Hinweis:
Alle Register lassen sich mit sehr einfachen Eingriffen in die
Indexparameter (weitere ak-Befehle) auf andere Datenfelder erweitern,
die noch nicht einbezogen sind! Beim A-Schema ist das viel schwerer
durchschaubar.

Damit wird nun im Web-OPAC folgendes möglich:
Der Nutzer gibt eine Folge von bis zu 4 Wörtern ein.
Das Programm nimmt die Eingabe und macht damit mehrere Versuche,
in dieser Reihenfolge:

0. Direktsuche (es kann ja sein, daß die Eingabe ein korrekt
    formulierter Suchbefehl ist! Dann soll der ausgeführt werden.)
    Sonst aber:

1. Titelanfang (Reg. 3)

2. Phrase der ersten zwei Wörter (Reg. 2)

3. Wörter mit AND verknüpft (Reg. 1)

4. Wörter mit ? versehen (nochmals Reg. 1), mit AND

Diese Reihenfolge entspricht in sehr vielen Fällen einer
absteigenden Signifikanz der Treffer, das ist der Punkt.
Das Verfahren ließe sich selbstredend noch ausweiten, es ist ein
erster Ansatz.
So wird es möglich, daß man die Eingangsseite denkbar einfach
gestaltet:

    http://www.biblio.tu-bs.de/db/neutral/

und daß trotzdem in sehr vielen Fällen etwas rauskommt, obwohl der
Nutzer keine Denkarbeit in die Auswahl von Registern oder
Formulierung einer Suchlogik investieren muß. Irgendwo haben wir
so ein Konzept schon gesehen, wo war das nur...
Die Ergebnisse kommen aber in 4 Abschnitten, die den 4 oben genannten
getrennten Suchbefehlen entsprechen. Von jedem Abschnitt werden
bis zu 20 Titel angezeigt und dazu der diesem Abschnitt entsprechende
Suchbefehl, denn man modifizieren und erneut abschicken kann, um die
vollständige Liste dazu zu erhalten. Ausprobieren, dann sieht man,
wie das funktioniert!

                    Search Term Highlighting!
Sofort ergibt sich aber ein Problem, das allgemein bei Textsuch-
funktionen auftritt: Warum wurde das gefunden, was da erscheint?
Dem kann nur, wenngleich nicht perfekt, das sog. "Highlighting"
abhelfen. Zunächst haben wir deshalb mittels JavaSkript eine noch
recht einfache Funktion eingebaut, die in der Kurzliste (aber nur
in dieser) die Suchbegriffe unterstreicht. Natürlich nur diejenigen,
die auch in der Kurzliste auftreten - das ist ja klar!
Schau'mer mal, ob sich das bewährt. Die Last des Highlighting liegt
damit immerhin beim Client, nicht beim Server! Wer freilich einen
SEHR langsamen Client hat...

Wir erneuern morgen nochmals das N-Paket und geben dann die Web-Skripte
getrennt davon ebenfalls frei. Damit hat man bereits ein sehr weit-
reichendes Anwendungspaket. Zu den Webfunktionen gehört dann auch
schon das Editieren. Die Vorlage dazu ist ausführlich kommentiert
und leicht zu modifizieren, wenn man andere Formulare für die
Web-Bearbeitung haben will.







Mehr Informationen über die Mailingliste Allegro