AW: UTF-8 Datenbank und Fragen

Mi Jul 17 10:28:11 CEST 2002

Lieber Herr Kaun,

> >Daten die Mischungen aus mehreren Schriftsprachen darstellen ...
> Ich denke, dass Sie hier z.B. unsere chin. oder jap DB
> meinen, ...
Ja und zu denen wollte ich mich lieber nicht äußern, weil ich hier überhaupt
kein Gefühl für Sinn oder Unsinn von UTF-8 habe.
Da Sie diesen Typ von Datenbank vor Augen haben, ich aber jenen anderen, der
fast ausschließlich auf der lateinischen Schrift beruht, müssen unsere
Antworten auf die gleichen Fragen wohl unterschiedlich ausfallen. Unsere
Datenbanken verzeichnen bibliographische Nachweise und museale
Beschreibungen von (teilweise historisch wertvollen) Büchern "aller Sprachen
und Länder". Letzteres steht in Anführungszeichen, weil es natürlich zum
ganz überwiegenden Teil auf der lateinischen Schrift beruhende Sprachen
sind. Wir haben also nur ganz selten mal einen russischen, griechischen oder
arabischen Titel zu verzeichnen. Für das Wiederauffinden dieser wenigen
"Exoten" können wir nicht viel Mühe investieren. Hingegen wollen und müssen
wir auf jedes Kringelchen bei der Beschreibung unserer musealen Bücher
achten. Wir haben bei uns mit einigem <Hallo Herr Berger> Aufwand die
ehemalige Protypenliste der Deutschen Bibliothek umgesetzt, um diesem
Anspruch gerecht zu werden. Das funktioniert so, dass alle mit Ostwest
darstellbaren Zeichen als solche, alle dort nicht berücksichtigten als
Protypen erfasst werden. Indexiert wird alles mit Grundbuchstaben bzw.
Umlaut, exportiert wird alles mit Protypen. Einziger Zweck der Übung ist die
Unterscheidbarkeit aller Kringel und Sonderzeichen. Für die Suche bringt das
gar nichts. Dennoch halte ich es nach wie vor für zwingend, bei Daten wie
den unseren so vorzugehen (das Gestorben-Zeichen könnte natürlich auch als
"+", das Gegen-Zeichen aus Prozessakten auch als "%" dargestellt werden usw.
aber das wäre aus unserer Sicht eine unzulässige Verfälschung.) Unser
Problem ist nun, dass wir den Export zwar so weiterverarbeiten können, dass
alle Protypen in die richtigen Sonderzeichen verwandelt werden, die
Darstellung in der Datenbank aber auf Ostwest beschränkt bleibt. D. h. alle
nicht durch Ostwest abgedeckten Protypen werden auch in der Nutzersicht der
Vollanzeige auf ein Ersatzzeichen reduziert. Hier wäre UTF-8 natürlich
hilfreich.

> D.h. dann doppelte Indexierung u-umlaut, ue,
Nein, Indexierung und Umkodierung der Nutzereingabe immer auf "ue"
> und vielleicht noch ein u fuer die, die aus den USA kommen?
Nö, die dürfen sich auch mal an etwas gewöhnen, was sie nicht selbst global
durchgesetzt haben :-)
> Und wie sieht es mit den frz. Zeichen aus?
Meine Französischkenntnisse sind dürftig. Aber ich denke, dass es hier keine
Probleme gibt, weil auch die Franzosen alle Buchstaben mit Akzenten und
Cedille wie die Grundbuchstaben sortieren.

> >... für den, der des Arabischen / Chinesischen mächtig ist :-)
> Was sollte jemand anderes denn mit solch einem Titel anfangen?
... ihn beispielsweise in eine Ausstellung zur Buchillustration des 19.
Jahrhunderts legen wollen.

> Ich bin mir einfach unsicher, ob UTF-8 in Katalogen wirklich unter den
> gegebenen Voraussetzungen etwas zu suchen hat. Weder die
> Katalogisierungsarbeit wuerde leichter (es sei denn man verzichtet auf
> Transkriptionen/Transliertionen) noch wuerde sich bei der Suche
> wesentliches aendern (es sei denn man baut einen UTF-8 Index
> auf). So weit ich es ueberblicken kann, wuerde das aber kaum Konsens
> finden.
Wie sollte der auch aussehen? Bei den lateinischen Schriftsprachen gibt es
doch nur die wenigen echten selbständigen Buchstaben wie das polnische -l
und das isländische Thorn, und die deutschen Umlaute, die einer
Sonderbehandlung bedürfen. Alles andere _muss_ im Index zwingend auf den
Grundbuchstaben reduziert werden, weil es die landessprachige
Lexikonsortierung ebenfalls tut. Etwas anderes ist natürlich die Darstellung
des Registers. Seit einiger Zeit gibt es ja auch bei allegro die
Möglichkeit, diese von der Sortierung zu unterscheiden (Hat das eigentlich
schon mal jemand erfolgreich angewendet?) Es wäre damit ja auch möglich,
Groß- und Kleinschreibung bei der Ausgabe des Registers zu erhalten und
trotzdem richtig (also ineinander) zu sortieren:
	mueller
	müller
	Mueller
	Müller

Die nichtlateinischen Schriften müssten natürlich jeweils für sich richtig
sortieren. Aber da könnte ich nur meine sehr rudimentären Russischkenntnisse
auskramen. Das lass ich lieber sein :-)

> Als feature erscheint mir das
> ganze teuer erkauft und auch irgendwie unnoetig.
Mit dieser Argumentation könnten die Amis aber auch den völligen Verzicht
auf die deutschen Umlaute in ihren Datenbanken begründen.

schone gruse an fraulein muller :-)

Mathias Manecke