[Allegro] a35 - Indexeintrag mit Bindestrich

Fischer, Thomas fischer at sub.uni-goettingen.de
Mo Mär 24 11:42:40 CET 2014


Lieber Herr Eversberg,

> > Ich denke auch, dass so eine Dreifachbehandlung von Bindestrichwoertern
> > Standard sein sollte. Also einmal so wie erfasst, zweitens mit eliminierten
> > Bindestrichen (Albertschweitzergesamtschule) und drittens mit allen
> > Strichen als Spatien interpretiert.

> Das dritte würde also bedeuten, oder verstehe ich das falsch, daß ein
> Wortindex dann zu einem Mehrwort-Index zu erweitern wäre, a.k.a.
> "Phrasenindex"? Doch auch damit wäre die "Herzogaugustbibliothek"
> unauffindbar, denn sie schreibt sich offiziell "Herzog August
> Bibliothek".
...
> Das "allegro"-System hat nun aber im Kern die
> Technik der sortierten Register als zentrales Wirkprinzip und nur
> als Hilfe für gewisse Fälle, nicht für den OPAC, die Volltextsuche.

meine Vorstellung ist eher die, zu versuchen, das Beste aus den verschiedenen Welten zu erreichen.
Der billige Speicherplatz erlaubt ja heutzutage, mehr und größere Indexe zu erzeugen, die dann auch verschiedene Funktionen haben können.
Und dann würde ich bei der Präsentation noch zwischen A99 und internetbasierten (=Browser-) Lösungen differenzieren.

Zunächst würde ich den Such- und den Browse-Index nicht unbedingt in eins setzen, ich unternehme da ein paar Klimmzüge, um unseren NutzerInnen beim Blättern nicht die übersetzten, sondern die Originaleinträge zu präsentieren (natürlich nur im Browser, solange A99 mit UTF-8 in Registern nichts anfangen kann).
Und für die Recherche wünsche ich mir, dass die Einträge der Suchenden möglichst effektiv zu Ergebnissen führen. Wenn ich meine Göttingen Adresse nehme, möchte ich z.B. dass die Obere Maschstr. auch als Obere-Masch-Str. gefunden wird (was wohl falsch, aber weit verbreitet ist), (und auch als Obere Maschstraße, aber das ist ein anderes Feld). Google kriegt das übrigens nicht zusammen, was genau passiert ist mir unklar.
Bei Bindestrichen sehe ich das so, dass
- zusammengesetzt Worte technisch nicht mehr separiert werden können: Oberemaschstr. also im Index auffindbar sein müsste,
- in einem Browsingregister möglichst die korrekte Schreibweise und eventuell noch abweichende Versionen zu finden sein sollten,
- das System dafür sorgen sollte, dass mit Bindestrichen eingegebene Suchen auch die getrennte Schreibweise finden sollten und umgekehrt.
Dem entspricht die von Herrn Berger erwähnte Dreifachindexierung: zusammen, mit Bindestrich und getrennt als verschiedene Einträge.
Die Suche setzt dann getrennte oder mit Bindestrich verbundene Ausdrücke in eine entsprechende UND-Anfrage um. Im Browser ist das relativ einfach, bei A99 könnte das auch ein Flex erreichen.

Mit freundlichen Grüßen
Thomas Fischer






Mehr Informationen über die Mailingliste Allegro