[Allegro] a35 - Indexeintrag mit Bindestrich

Thomas Berger ThB at Gymel.com
Fr Mär 21 16:19:16 CET 2014


Lieber Klaus, liebe Liste,

>> Im Fall des Bindestrichs ergeben sich damit zwei Fragen, die aber
>> eng zusammenhängen:
>>
>> 1. Wie werden Bindestrichwörter indexiert?
>>  Im Standardmodell werden sie zerlegt in zwei Wörter, sowohl
>>  für das Titelwort- wie für das ALL-Register. Das kombinierte
>>  wort (mit oder ohne -) ist somit nicht im Register.
> 
> Ob das gut oder gewünscht sein kann, weiß ich nicht. Wörter mit
> Bindestrichen gibt es nun mal und die übliche Praxis wäre wohl, diese doppelt zu indexieren,
> einmal mit Bindestrich und einmal getrennt, also ohne Bindestrich. Das

getrennt waere dann "einzeln". "Getrennt" im Sinne von Teilphrase ist auch
eine Option, vor allem aber gab es da mal die Zusammenschreibung, wie etwa
bei "Retrievalsystem"

> grundsätzliche Problem des Bindestrichs im Deutschen besteht ja darin, dass er,
> obwohl es Regeln gibt, mehr oder weniger nach Gefallen gesetzt wird. Wörter
> werden daher entweder durch Bindestrich getrennt oder nicht: "Information
> Retrieval-System" vs. "Information-Retrieval-System" - lassen wir mal die
> Vorgaben durch den Duden außer Acht ...

> Im konkreten Fall "rak-wb" hätte man durch Doppeltindexierung die Einträge
> "rak" und "rak-wb" im Register (der nutzlose Eintrag "wb" wird dann wohl keinen
> Schaden anrichten).

Aber rakwb waere schon wieder fast hilfreich...

Zum Problem werden allerdings Mehrbindestrich-Woerter, weil die
Anzahl der Bindestriche (oder Nicht-Bindestriche) die Moeglichkeiten
potenziert:

Nebentitel: 	Ku-kung-hsüeh-shu-chi-k'an ; Research quarterly ; Ku-kung hsüeh-shu
chi-k'an

#3n sp Dalai Lama <V.>
 ▼t
Rje-btsun-bla-ma-Mah¯aguru-Padma-byun-gnas-la-gsol-badebs-pa-byin-rlabs-bdud-rtsii-char-rgyun
#3na ▼p	Dalai Lama <V.> / Rje btsun Bla ma Mahaguru Padma 'Byung gnas La Gsol
ba' Debs pa Byin rlabs Bdud rts'i Char rgyun Zhes Bya ba Bzhugs so



> Der Auslöser des Ganzen, die Datenbank
> 
> http://ixtrieve.fh-koeln.de/a35/litie/
> 
> ist übrigens nicht Standard- sondern Neutralformat, obwohl das ja keinen Unterschied machen sollte.

Na und ob. Das duerfte bei den Stopwortlisten schon anfangen
(die waren in diesem Thread noch kein Thema, haben aber auch
einen gewaltigen Effekt: Dinge die - nach Zerlegung - gar nicht
in den Index geraten, /muessen/ auf der Rechercheseite aus
der Query auch herausgehalten werden (a35 hat auch nicht nach
"8" gesucht, nachdem es "utf-8" erst einmal zerlegt hatte) und
geht dann weiter mit den Zerlegungs- und Zusammenfassungsregeln
fuer das, was wir uns als "Verstichwortung" eher trivial
vorstellen.



>> 2. Wie wird eine Nutzereingabe mit - behandelt? Zerlegt, oder
>>  der - rausgenommen, oder gesucht wie eingegeben?
> 
> Im Sinne der RAK-WB kann es nur eine Anwort geben: gesucht wie eingegeben!
> Solange es die RAK-WB noch gibt, sollte man sie finden können ... Die
> Doppeltindexierung würde eine Entscheidung nicht erfordern.

Das ist zu kurz gedacht. Und "wie eingegeben" ueberdies mehrdeutig:
Wie vom Erfasser eingegeben oder wie vom Recherchierenden?

Die - nicht erfuellbare - Forderung ist, dass es belanglos ist, was
der Recherchierende eingibt, es wird stets das gefunden, was der
Erfasser eingegeben hat (Bsp.: Ich suche "Retriehfall System" und
finde die Aufnahmen mit "Retrievalsystem". Oder umgekehrt - seit die
Browser Rechtschreibkontrolle haben und die Bibliothekssysteme immer
noch nicht, sind ja die Aufnahmen oft fehlerhafter als die Anfragen...)

Wenn wir die Indexierung als eine Art Transformation der urspruenglichen
Erfassung ansehen, dann ist aber in der Tat die Mindestanforderung,
dass Recherche nach einem dieser urspruenglich erfassten Begriffe in
genau dieser Form ebenfalls intern vorab so transformiert wird, dass
der eigentiche, "technische" Indexzugriff dann auch das vorhandene
Trifft. Und das erreicht man auch mit Einfacher Indexierung, wenn die
Bindestrichtbehandlung nur auf beiden Seiten einheitlich ist, bzw.
erreicht es auch bei Doppelindexierung nicht, wenn auch noch
"Retrieval-system" und "Retrievalsytem" zusammenfallen sollen.

Schoenes Wochenende
Thomas Berger



Mehr Informationen über die Mailingliste Allegro