[Allegro] a35 - Indexeintrag mit Bindestrich

Klaus Lepsky klaus.lepsky at fh-koeln.de
Fr Mär 21 17:25:23 CET 2014


Lieber Thomas, liebe Liste,

> getrennt waere dann "einzeln". "Getrennt" im Sinne von Teilphrase ist auch
> eine Option, vor allem aber gab es da mal die Zusammenschreibung, wie etwa
> bei "Retrievalsystem"

richtig, nicht zu vergessen: ohne Bindestrich ist in vielen Fällen korrekte Rechtschreibung. Warum also nicht Indexierung von:

retrieval-system
retrieval
system
retrievalsystem

Dass "rakwb" dann nicht schön ist, darf in Kauf genommen werden. Nebenbei bemerkt: DNB findet mit "rakwb" 47 Treffer, mit "rak-wb" 48, mit "rak wb" 49 ...

> Zum Problem werden allerdings Mehrbindestrich-Woerter, weil die
> Anzahl der Bindestriche (oder Nicht-Bindestriche) die Moeglichkeiten
> potenziert:
> 
> Nebentitel: 	Ku-kung-hsüeh-shu-chi-k'an ; Research quarterly ; Ku-kung hsüeh-shu
> chi-k'an
> 
> #3n sp Dalai Lama <V.>
> ▼t
> Rje-btsun-bla-ma-Mah¯aguru-Padma-byun-gnas-la-gsol-badebs-pa-byin-rlabs-bdud-rtsii-char-rgyun
> #3na ▼p	Dalai Lama <V.> / Rje btsun Bla ma Mahaguru Padma 'Byung gnas La Gsol
> ba' Debs pa Byin rlabs Bdud rts'i Char rgyun Zhes Bya ba Bzhugs so

sicher, an chemische Verbindungen gar nicht zu denken. Wenn man in solchen Fällen alle durch Bindestrich verbundenen Kombinationen noch mal einzeln zusammengesetzt indexiert, wird das mühselig. Zum Glück würde es aber doch die Maschine machen ... Ob in oben gezeigtem Fall was Sinnvolles rauskäme, vermag ich nicht zu beurteilen. Aber "Sinnhaftigkeit" ist ja auch kein maschinentaugliches Kriterium ...

>> Der Auslöser des Ganzen, die Datenbank
>> 
>> http://ixtrieve.fh-koeln.de/a35/litie/
>> 
>> ist übrigens nicht Standard- sondern Neutralformat, obwohl das ja keinen Unterschied machen sollte.
> 
> Na und ob. Das duerfte bei den Stopwortlisten schon anfangen
> (die waren in diesem Thread noch kein Thema, haben aber auch
> einen gewaltigen Effekt: Dinge die - nach Zerlegung - gar nicht
> in den Index geraten, /muessen/ auf der Rechercheseite aus
> der Query auch herausgehalten werden (a35 hat auch nicht nach
> "8" gesucht, nachdem es "utf-8" erst einmal zerlegt hatte) und
> geht dann weiter mit den Zerlegungs- und Zusammenfassungsregeln
> fuer das, was wir uns als "Verstichwortung" eher trivial
> vorstellen.

Ich habe befürchtet, dass die Entscheidung für das Neutralformat nicht folgenlos sein wird. Das Thema "Stoppwortlisten" sollte aber (hoffentlich) davon unabhängig sein, außer es gäbe unterschiedliche (was ich nicht überprüft habe), zumal ich grundsätzlich eigentlich gegen deren Verwendung bin.

>> Im Sinne der RAK-WB kann es nur eine Anwort geben: gesucht wie eingegeben!
>> Solange es die RAK-WB noch gibt, sollte man sie finden können ... Die
>> Doppeltindexierung würde eine Entscheidung nicht erfordern.
> 
> Das ist zu kurz gedacht. Und "wie eingegeben" ueberdies mehrdeutig:
> Wie vom Erfasser eingegeben oder wie vom Recherchierenden?

Zunächst wie vom Recherchierenden, denn dieser hat doch einen Anspruch darauf, dass seine Suchanfrage auch abgearbeitet wird. Was erfasst wurde, ist eher nachrangig, denn für die Suche ist entscheidend, was indexiert wurde. Daraus folgt, dass im Zweifelsfall bei der Suche mehr Möglichkeiten bestehen sollten, als die Erfassung berücksichtigt hat.

Der Bindestrich (das war ja das Ausgangsproblem) macht aus mehreren kurzen Zeichenketten eine lange. Es ist daher wichtig, dass sowohl die lange trifft als auch die Suche mit den beiden kurzen. Das erreicht nur die Mehrfachindexierung. Die Bemühungen, alle möglichen Suchvarianten zu unterstützen, können ja sehr weit gehen, z.B. bis hin zur Linkstrunkierung. Als Experiment sehr schön und für Demonstrationen nützlich, aber wenn ich trotzdem Bindestrichkonstruktionen nicht finde, wird da an falscher Stelle Ehrgeiz in den Index investiert.

> Die - nicht erfuellbare - Forderung ist, dass es belanglos ist, was
> der Recherchierende eingibt, es wird stets das gefunden, was der
> Erfasser eingegeben hat (Bsp.: Ich suche "Retriehfall System" und
> finde die Aufnahmen mit "Retrievalsystem". Oder umgekehrt - seit die
> Browser Rechtschreibkontrolle haben und die Bibliothekssysteme immer
> noch nicht, sind ja die Aufnahmen oft fehlerhafter als die Anfragen...)

So weit würde ich nicht gehen wollen, aber den Nutzen einer phonetischen Suche sollte man nicht völlig negieren. Diese ist ja keine Begründung dafür, Blödsinn einzugeben und Sinnhaftes zu erwarten, sie soll nur Schreibweisenvarianten abfangen - tun das Bibliotheken noch im gewünschten Ausmaß? Selbst wenn, bestimmt nicht auf der Ebene von Titelstichwörtern ...

> Wenn wir die Indexierung als eine Art Transformation der urspruenglichen
> Erfassung ansehen, dann ist aber in der Tat die Mindestanforderung,
> dass Recherche nach einem dieser urspruenglich erfassten Begriffe in
> genau dieser Form ebenfalls intern vorab so transformiert wird, dass
> der eigentiche, "technische" Indexzugriff dann auch das vorhandene
> Trifft. Und das erreicht man auch mit Einfacher Indexierung, wenn die
> Bindestrichtbehandlung nur auf beiden Seiten einheitlich ist, bzw.
> erreicht es auch bei Doppelindexierung nicht, wenn auch noch
> "Retrieval-system" und "Retrievalsytem" zusammenfallen sollen.

"Transformation" trifft es sicher ganz gut. Dabei muss die ursprüngliche Eingabe natürlich suchbar bleiben, wenn diese aber - als Zeichenkette - mehrfache Deutungen zulässt, müssen auch diese suchbar sein. Das sollten wir können, denn die gute Nachricht ist, Google kann es (noch) nicht:

"utf8" - 27.100.000 Treffer
"utf-8" - 39.300.000 Treffer
"utf 8" - 39.300.000 Treffer
utf-8 - 124.000.000 Treffer
utf8 - 27.000.000 Treffer
utf 8 - 131.000.000 Treffer

Gut, kontrolliert habe ich die Qualität der Treffermengen jetzt nicht ...

Schöne Grüße

   Klaus Lepsky





Mehr Informationen über die Mailingliste Allegro