AW: UTF-8 Datenbank und Fragen

Matthias Kaun kaun at sbb.spk-berlin.de
Di Jul 16 15:22:48 CEST 2002


Lieber Herr Manecke,
>Daten die Mischungen aus mehreren Schriftsprachen darstellen und die
>potentiell auch von Benutzern mit unterschiedlichen Schriftsprachen
>abgefragt werden sollen.
Ich denke, dass Sie hier z.B. unsere chin. oder jap DB meinen, die sowohl
die Originalschrift als auch (allerdings nur einen kleinen Teil der Felder)
in Transkription nachweisen. Ich bin eigentlich sogar der Auffassung, dass
Umschriften ueberhaupt nicht notwendig sind, wenn eine originalschriftliche
Verzeichnung und Sortierung (ich meine nicht die alphabetische Sortierung,
sondern vielmehr einen stringenten Indexaufbau) moeglich sind.
Bisher war die doppelte Katalogisierung mancher Kategorien in einem
Datensatz (Originalschrift und Transkription) gebraeuchlich; Ich frage mich
aber gerade in Hinblick auf die gewuenschte, realisierbare
Mehrschriftlichkeit, warum denn eigentlich?

>Nein! Ich denke, dass das genau der Zweck der Übung sein sollte: Jedes auch
>noch so (aus der Sicht des Datenbank-Anbieters) entlegene Zeichen wird in
>den Suchergebnissen richtig dargestellt, muss aber bei der Suche nicht
>zwingend gekannt werden. 

Also doch eher feature, der durch doppelte Katalogisierungsarbeit (nicht
immer werden maschinelle Umsetzungen greifen - im CJK Bereich auf gar
keinen Fall) einen erheblichen Zeitaufwand fordert. Vielleicht dann doch
kein UTF-8?

>Wäre dies beispielsweise Deutsch, so würden die deutschen
>Umlaute nach "ue", "oe", "ae" und das ß nach "ss" umkodiert und die
>Buchstaben mit Sonderzeichen aus allen anderen Sprachen (Tilde, Hacek,
>Accent, Trema ...) würden auf den jeweiligen Grundbuchstaben zurückgeführt.

D.h. dann doppelte Indexierung u-umlaut, ue, und vielleicht noch ein u fuer
die, die aus den USA kommen? 
Und wie sieht es mit den frz. Zeichen aus? 
Ganz merkwuerdig wird es doch da wo UTF-8 dazu benutzt werden wird, um
Transliterationen darzustellen - z.B. des Arabischen (von dem ich keine
Ahnung habe, aber ich durchaus Suchen arabischer, noch besser
vietnamesischer Titel im  GBV kenne, die liebend gerne mit vielen, vielen
Sonderzeichen arbeiten).
Deshalb waere es doch eine Idee: entweder werden die Transliterationsysteme
auf 26 Buchstaben reduziert, oder aber man verzeichnet Originalschrift.
>> Es ist dann ja das 
>> Arabische neben dem
>> Chinesischen in einer Datenbank suchbar gemacht worden. 
>... für den, der des Arabischen / Chinesischen mächtig ist :-)

Was sollte jemand anderes denn mit solch einem Titel anfangen?
Ich bin mir einfach unsicher, ob UTF-8 in Katalogen wirklich unter den
gegebenen Voraussetzungen etwas zu suchen hat. Weder die
Katalogisierungsarbeit wuerde leichter (es sei denn man verzichtet auf
Transkriptionen/Transliertionen) noch wuerde sich bei der Suche
wesentliches aendern (es sei denn man baut einen UTF-8 Index auf). So weit
ich es ueberblicken kann, wuerde das aber kaum Konsens finden. Aber das
eigentlich waere doch der Einsatz von UTF-8!? Als feature erscheint mir das
ganze teuer erkauft und auch irgendwie unnoetig.

Schoenen Gruss aus dem sonnigen Berlin
Matthias Kaun





Mehr Informationen über die Mailingliste Allegro