Index-Sortierung mit Umlauten

Bernhard Eversberg ev at buch.biblio.etc.tu-bs.de
Die Sep 14 08:30:48 CEST 2004


On 13 Sep 04, at 17:01, Thomas Fischer wrote:

> > > seltsames Verhalten (Windows 2000):
> > >
> > > Letzte Datensätze sind bei mir:
> > >       Über die sogenannten 68er in der BRD: ein Essay
> > >       Übersicht über Bildungsprogramme der EU
> > > 
> > > Wenn ich mit a99test darüber hinaus blättere, kommt
> > >   24
> > >    2==>aeiou - Das Kulturinformationssystem des bm:bwk
> > >    1   aeiou: Filme zu Weltkrieg, Erster
> > > 
> Meine Frage war, warum beim weiterblättern dies seltsame "24" auftritt und dann
> nicht beim Anfang des Registers, sondern bei den Kleinbuchstaben weitergeblättert
> wird.
Das weiß ich auch nicht. Nur genauere Untersuchung der konkreten Datenbank könnte 
das erhellen.

> 
> Ich kenne mich mit C zwar nicht so recht aus, kann mir aber nicht vorstellen, dass
> es keine andere Sortierung als die nach ASCII-Wert zu produzieren in der Lage ist.
> Und C steckt doch in Allegro-C drin, oder?
Die Sortierung allein ist nicht das Problem, es gibt noch zwei andere:
Das eine Problem ist, daß dann einzelne Zeichen entweder denselben Sortierwert 
hätten wie andere Zeichen (ä = a) ODER einen Wert wie eine Kombination aus zwei 
anderen Zeichen (ä = ae). Beides geht mit dieser Indextechnik nicht. Nur eine 
Sortierung a<ä<b wäre lösbar, dies haben wir mit dem i-Befehl in den 
Indexparametern ja auch ermöglicht (Handbuch 10.2.4.6). Das ist es aber nicht, 
was Sie wollen. Gleichordnung von ä und a oder ä und ae führt zu diesem Problem: 
Was soll passieren, wenn es "Müller, Jörg", "Mueller, Jörg", "Müller, Joerg" und 
"Mueller, Joerg" alle zugleich in einer Datenbank gibt? Wie soll das im Index 
aussehen?
Das andere Problem ist:
Die Indextechnik komprimiert gleiche Anfangsteile von Schlüsseln auf zwei Byte, 
in denen dann die Länge des identischen Teils steckt. Deshalb sind die 
Indexdateien so kompakt. Genau diese Technik wäre aber, wie das Beispiel zeigt, 
nicht anwendbar: der sortiertechnisch gleiche Teil könnte nicht komprimiert 
werden, weil die Schreibweise dabei verlorenginge. 

> 
> Das Problem ist in sofern etwas ernsthafter, als beim Blättern im Index heutzutage
> eine korrekte Sortierung von Sonderzeichen erwartet werden kann - die
> bibliothekarische Software ist da wohl noch etwas hinter der Zeit zurück.
Nur unsere. Nehmen Sie Aleph, da geht das! Oder was ist mit den vielen Open-
Source-Produkten, da wird doch was moderneres dabei sein. Ich kenne mich da nicht 
so aus. Warum untersucht das nicht mal jemand, der könnte sich Verdienste 
erwerben. Oder was ist mit Datatron, der "genial einfachen Datenbank"? Hat die 
noch niemand ausprobiert? (http://www.datatron.de , günstige Shareware-Version)

> Aufgeloeste Umlaute in der Anzeige finde ich nicht akzeptabel, und von solchen im
> Register direkt wieder auf die richtige Anzeige zu kommen halte ich für unmöglich.
Ist auch unmöglich, es sei denn mit Index-Vorspiegelung. Das ist die einzige 
Lösung im Rahmen unseres Systems. Der Vorteil der Index-Kompaktheit würde dabei 
aufgegeben, aber wen interessiert das noch?

B.E.


Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de