[Allegro] a35 - Indexeintrag mit Bindestrich
Klaus Lepsky
klaus.lepsky at fh-koeln.de
Mo Mär 24 11:03:54 CET 2014
>>> Ich denke auch, dass so eine Dreifachbehandlung von Bindestrichwoertern
>>> Standard sein sollte. Also einmal so wie erfasst, zweitens mit eliminierten
>>> Bindestrichen (Albertschweitzergesamtschule) und drittens mit allen Strichen
>>> als Spatien interpretiert.
>> Das dritte würde also bedeuten, oder verstehe ich das falsch, daß ein
>> Wortindex dann zu einem Mehrwort-Index zu erweitern wäre, a.k.a.
>> "Phrasenindex"? Doch auch damit wäre die "Herzogaugustbibliothek" unauffindbar,
>> denn sie schreibt sich offiziell "Herzog August
>> Bibliothek".
>
> Nein, "interpretiert", nicht "indexiert". D.h. "Herzog-August-Bibliothek"
> wuerde v.a. auch wie "Herzog August Bibliothek" behandelt und zunaechst
> einfach verstichwortet.
So war auch das Beispiel mit dem "retrieval-system" gemeint. Die dritte Variante der Verstichwortung (Bindestrich als Spatium) richtet auch bei einem Blick in das Register keinen Schaden an, denn die Suche nach "retrieval" oder nach "retrieval system" führt im Register zur Stelle "retrieval" und direkt darunter kommen bereits die Einträge mit Bindestrich (zumindest klappt es hier so: http://ixtrieve.fh-koeln.de/a35/litie/).
> Eine Mini-Phrase "Herzog August Bibliothek" waere eine
> vierte Option, ist aber schwierig: Wie soll anhand einer Benutzer-
> recherche entschieden werden, welche Fragmente Kandidaten fuer solche
> Mini-Phrasen sind? (Das waere natuerlich unglaublich trennscharf, wenn
> irgendein fortgeschrittenes Heinzelmaennchen zu Koeln bereits vor der
> eigentlichen Recherche "E.T.A. Hoffmann" als Phrase erkannt oder
> "Herzog August Bibliothek" von "Herzog August" unterschieden haette,
> nicht wahr?)
Den Wink mit dem Zaunpfahl nehme ich gerne an. Natürlich besteht im Rahmen einer automatischen Indexierung die Möglichkeit, Mehrwortgruppen als solche zu erkennen. Das ist insb. für Systeme, bei denen ein Browsing in Registern elementarer Bestandteil ist, eine enorm nützliche Sache. Um dem Argument vorzubeugen, dafür müsse man zunächst wieder jahrelange Wörterbucharbeit betreiben, weise ich nur darauf hin, dass es auch möglich ist, mit einer rein algorithmischen Vorverarbeitung alles aus einer Gesamtkollektion zu extrahieren, was Mehrwortgruppe sein könnte. Das führt in diesem Zusammenhang alles zu weit ... allerdings zu guten Ergebnissen: http://arxiv.org/abs/1210.0852, http://ixtrieve.fh-koeln.de/lehre/bredack-2013.pdf, und allgemein: lex-lingo.de
> Forderungen, auf Browsing (in sortierten Registern) ganz zu verzichten,
> zugunsten neuerer (Suchmaschinen-)Methoden sind ja auch nicht neu
> und sie sind nachvollziehbar, weil das Verstehen der Funktionsweise
> alphabetischer Anordnung verlorengeht, damit auch die Kulturtechnik,
> solche Anordnungen mit Verständnis nutzen zu können.
Sicher können Erfahrungen mit der steigenden Ignoranz gegenüber als nützlich betrachteten Werkzeugen leicht im Kulturpessimismus münden - ich will mich davon nicht freisprechen -, umso stärker sollte man aber versuchen, den Nutzen zu demonstrieren. Mehrwortgruppen oder Phrasen sind als Ganze schwer vorhersehbar, weil es für ihre konkrete Erscheinungsform in Dokumenten zu viele Variationsmöglichkeiten gibt. Deshalb kann man nicht darauf vertrauen, dass sie hoffentlich richtig eingegeben werden. Eigentlichen Nutzen können sie nur in Registern entfalten, in denen sie bei einem geeigneten Einstieg "entdeckt" werden können. Das kann schon aus prinzipiellen Gründen von einem Suchmaschinenmodell nicht geleistet werden.
Aber nicht jedes Register muss beim Blick hinein zu erhellenden Erkenntnissen führen, das Gesamtwortregister etwa zeigt das sehr deutlich, zumal wenn dort auch noch Linkstrunkierung zugeschaltet ist. Das spricht aber nicht gegen das Prinzip.
> Also: Ihrem Defaetistmus setze ich meinen entgegen, bin aber ansonsten
> recht zuversichtlich...
Dem kann ich mich nur anschließen. Ich mag mich noch nicht damit abfinden, dass für eine an elementaren Katalogprinzipien orientierte Lösung kein Bedarf mehr existieren sollte.
Schöne Grüße
Klaus Lepsky
Mehr Informationen über die Mailingliste Allegro