AW: UTF-8 Datenbank und Fragen

Manecke, Mathias manecke at dbl.ddb.de
Di Jul 16 13:43:12 CEST 2002


Lieber Herr Kaun,

> Meine Frage an die Liste ist eher allgemeiner Art, denn es 
> geht ja darum,
> dass Unicode/UTF-8 im Bibliothekswesen immer wieder 
> herumgeistert, meines
> Erachtens aber bisher noch zu wenig darueber nachgedacht wurde, was
> eigentlich bei einer Suche in einer UTF-8 Datenbank passiert 
> bzw. was das
> ueberhaupt soll.
Ohne je selbst an die Realisierung solcher Vorhaben gegangen zu sein,
erlaube ich mir hier einige schnelle Gedanken dazu.

> Wenn wir einmal die originalschriftlichen (Chinesisch, Japanisch und
> Koreanisch oder auch Russisch, Kroatisch...) Geschichten ausser Acht
> lassen, geht es ja auch um Umlaute und Sonderzeichen aus dem 
> Französischen,
> Daenischen etc.  
Ich denke, dass man bei den Überlegungen zu diesem Thema genau zwischen
diesen zwei Bereichen unterscheiden sollte:
1.)
Daten, die weitgehend auf der lateinischen Schrift beruhen und auch für ein
Publikum angeboten werden, welches sich einer auf der lateinischen Schrift
beruhenden Schriftsprache für die Recherche bedienen;
2.)
Daten die Mischungen aus mehreren Schriftsprachen darstellen und die
potentiell auch von Benutzern mit unterschiedlichen Schriftsprachen
abgefragt werden sollen.

Meine Überlegungen (und auch ihre weiteren Äußerungen) beziehen sich
zunächst auf den ersten Fall. Ich denke der zweite ist weitaus
komplizierter, aber auch der erste hat so seine Tücken.
> Wuerde es der Philosophie einer UTF-8 Datenbank
> entsprechen, wenn diese Zeichen suchbar sind? Oder anders herum
> ausgedrueckt, verkommt die Idee UTF-8 zum netten feature, wenn nur die
> Titelanzeige in UTF-8 gezeigt wird? 
Nein! Ich denke, dass das genau der Zweck der Übung sein sollte: Jedes auch
noch so (aus der Sicht des Datenbank-Anbieters) entlegene Zeichen wird in
den Suchergebnissen richtig dargestellt, muss aber bei der Suche nicht
zwingend gekannt werden. 

> Das ist nicht ganz korrekt
> ausgedrueckt, es geht vielmehr um die Umsetzung von 
> Sonderzeichen im Index
> auf die Grundbuchstaben. 
Genau darum geht es. Das ist allerdings alles andere als trivial. Relativ
einfach wäre es noch, wenn man davon ausgehen könnte, dass der größte Teil
der potentiellen Benutzer sich bei der Recherche der gleichen Schriftsprache
bedienen wird. Wäre dies beispielsweise Deutsch, so würden die deutschen
Umlaute nach "ue", "oe", "ae" und das ß nach "ss" umkodiert und die
Buchstaben mit Sonderzeichen aus allen anderen Sprachen (Tilde, Hacek,
Accent, Trema ...) würden auf den jeweiligen Grundbuchstaben zurückgeführt.
Blieben noch die eigenständigen Schriftzeichen wie das isländische Thorn.
Diese könnten dann ohne Umkodierung im den Index stehen, bräuchten aber
einen eigenen Sortierwert. Aber welchen? Vor das Alphabet? Dahinter? Oder
mitten rein? Das scheint mir bei diesem Typ von Datenbanken eines der
Hauptprobleme zu sein. Denn diese Entscheidung ist ja abhängig von der
verwendeten Sprache. Das polnische Lodz (mit durchgestrichenem L und
Akzenten auf o und z) würden wir Deutschen zwischen Leipzig und London
vermuten. Für einen Polen liegt Lodz allerdings hinter Luzern, weil das
durchgestrichene L ein eigenständiger Buchstabe ist, der zwischen L und M
sortiert.
> Und muss man nicht bedenken, dass wir hier in der BRD wunderbar ein
> u-umlaut eingeben koennen, aber bereits 250 km weiter 
> oestlich die Sache
> anders aussieht?
... und dort dann die Eingabe des durchgestrichenen L eine
Selbstverständlichkeit ist :-)
Aber gerade dies scheint mir ein Argument dafür zu sein, dass die
Zeichenvielfalt in die Anzeige und nicht in die Suchfunktionalität gehört.
Idealer Weise sollte eine internationale Datenbank also alle
sprachspezifischen Auszeichnungen in den Daten mit transportieren, in der
Anzeige berücksichtigen und in der Recherche zwar unterstützen, aber nicht
erzwingen (also Lodz finden, egal ob mit oder ohne durchgestrichenem L
gesucht wurde; das funktioniert bei allegro ja sehr schön mittels
Umkodierung, setzt aber die "deutsche" Gleichsetzung von -L und L voraus). 
Was ist aber mit den sonstigen Auszeichnungen? Layoutinformationen
(Schriftstil, Schriftauszeichnung ...) haben sicher in bibliographischen
Datenbanken nichts zu suchen. Wie ist das aber mit Ligaturen, Hoch- bzw.
Tiefstellung, römischen Zahlen, schriftähnlichen Symbolen? Nun könnte man
sagen, das ist doch alles in den bibliothekarischen Regeln längst geregelt.
Ja, aber sprachen- bzw. landesspezifisch und ohne Unicode im Hinterkopf.

> Und wenn man davon ausgeht, dass UTF-8 kommen soll, wozu 
> brauchen wir noch
> Transkriptionen/Transliterationen? Es ist dann ja das 
> Arabische neben dem
> Chinesischen in einer Datenbank suchbar gemacht worden. 
... für den, der des Arabischen / Chinesischen mächtig ist :-)

Viele Grüße

Mathias Manecke
Die Deutsche Bibliothek
Deutsche Bücherei Leipzig
Deutsches Buch- und Schriftmuseum
Deutscher Platz 1
D-04103 Leipzig
Telefon: +49-341-2271-250
mailto: manecke at dbl.ddb.de
http://www.ddb.de






Mehr Informationen über die Mailingliste Allegro