UTF-8 Datenbank und Fragen

Matthias Kaun kaun at sbb.spk-berlin.de
Mo Jul 15 11:07:49 CEST 2002


Liebe Allegro-Liste,
ich hatte bereits 1998 Versuche mit Allegro/Avanti und UTF-8 gemacht. Ich
habe mich jetzt noch einmal an die Arbeit gemacht und die Kataloge der
Ostasienabteilung der SBB-PK, die originalschriftlich (Chinesisch,
Japanisch) verzeichnen, nach UTF-8 umkodiert und neu aufgebaut. 
Mit IE und Netscape 4.77 und hoeher und einem Unicode-Font kann ich jetzt
japanische und chinesische Daten in einer Datenbank halten und vor allem
suchen.
Meine Frage an die Liste ist eher allgemeiner Art, denn es geht ja darum,
dass Unicode/UTF-8 im Bibliothekswesen immer wieder herumgeistert, meines
Erachtens aber bisher noch zu wenig darueber nachgedacht wurde, was
eigentlich bei einer Suche in einer UTF-8 Datenbank passiert bzw. was das
ueberhaupt soll.
Wenn wir einmal die originalschriftlichen (Chinesisch, Japanisch und
Koreanisch oder auch Russisch, Kroatisch...) Geschichten ausser Acht
lassen, geht es ja auch um Umlaute und Sonderzeichen aus dem Französischen,
Daenischen etc.  Wuerde es der Philosophie einer UTF-8 Datenbank
entsprechen, wenn diese Zeichen suchbar sind? Oder anders herum
ausgedrueckt, verkommt die Idee UTF-8 zum netten feature, wenn nur die
Titelanzeige in UTF-8 gezeigt wird? Das ist nicht ganz korrekt
ausgedrueckt, es geht vielmehr um die Umsetzung von Sonderzeichen im Index
auf die Grundbuchstaben. 
Und wenn man davon ausgeht, dass UTF-8 kommen soll, wozu brauchen wir noch
Transkriptionen/Transliterationen? Es ist dann ja das Arabische neben dem
Chinesischen in einer Datenbank suchbar gemacht worden. 
Ich bin mir in diesen Punkten absolut unsicher, ich denke nur, dass die
Fragen beantwortet werden muessten, wenn z.B. MAB2 jetzt auch UTF-8 zulaesst.
Und muss man nicht bedenken, dass wir hier in der BRD wunderbar ein
u-umlaut eingeben koennen, aber bereits 250 km weiter oestlich die Sache
anders aussieht?
Wer einen Blick in die Testdatenbank werfen moechte, hier die URL. Ich
weise aber darauf hin, dass es sich um eine Testversion handelt, bei der
noch so manche Zeichen nicht immer korrekt angezeigt werden.

http://ead.sbb.spk-berlin.de:8080/cgi-bin/avanti-union/search.pl?db=chin1

Ferner sei darauf hingewiesen, dass Umlaute und Sonderzeichen aus dem Index
herausgenommen worden sind. Insofern verkommt UTF-8 hier zum netten
feature; lediglich fuer das Chinesische und Japanische ist ein Vorteil
vorhanden. Und nicht alle Zeichen (CJK) werden in der Anzeige vom Browser
korrekt umgesetzt; eine Suche dieser Zeichen ist aber moeglich (sonderbares
Verhalten - Bsp. Suche nach "dewen" im title keyword - das "de" wird als
Kaestchen angezeigt; eine Suche nach Originalschrift mit IME ist aber
moeglich, nur die Anzeige ist nicht moeglich (bei IE, nicht so bei
Netscape...)

Schoenen Gruss aus Berlin
Matthias Kaun






Mehr Informationen über die Mailingliste Allegro