UNicode und allegro (was:Re: EBOX ist da)
cwitter at gwdg.de
cwitter at gwdg.de
Fr Jan 16 15:47:01 CET 1998
Thomas Berger schrieb>
> Christian Wittern wrote:
>
> > Eine Probe-Installation ist noch verfuegbar, wird aber wohl
> > demnaechst mangels Speicherplatz abgebaut. Sie ist erreichbar unter
> > http://www.kb.oas.hist.uni-goettingen.de/cgi-bin/maske.pl?db=canon
>
> leider nicht mehr.
Sorry, da habe ich mich mit der URL verhaspelt:
http://www.kb.oas.hist.uni-goettingen.de/cgi-bin/acwww25/maske.pl?db=canon
muss es richtig heissen.
> > Die Datenbank enthaelt hauptsaechlich Chinesisch. Damit Sie
> > ueberhaupt etwas machen koennen, waehlen Sie bitte das Register 3
> > (Titles (Pinyin) und geben z.B. fahuajing als Start fuer das Register
> > an. Fuer die Darstellung brauchen Sie dann einen Unicode-Font, oder
> > wenigstens einen Chinesisch-Font, sonst sehen SIe nur lauter
> > rechteckige Kaestchen. Neben den MS-Languagepacks, die zusammen mit
> > dem Internet-Explorer vertrieben werden, gibt es auch den Font
> > Bitstream Cyberbit, der eine grosse Teilmenge von Unicode enthaelt
> > und frei verfuegbar ist unter http://www.bitstream.com.
>
> Hochinteressant. In NT ist ja UNICODE seit immer eingebaut,
> und auch die 4er-Versionen von Netscape und Microsoft-
> Browsern unterstuetzen UTF-8. In HTML 3.2, zumindest aber
> in HTML 4.0 ist ja auch ein UTF-8 encoding offiziell
> erlaubt. Fuer die Darstellung von OSTWEST-Zeichen etc.
> wollte ich bei WWW-Applikationen eigentlich recht bald
> intern wie auch vor allem fuer die gelieferten Daten UNICODE
> einsetzen, um Zeichensatzprobleme fuer immer :-) auszuschliessen.
TTF fonts auf MS Plattformen sind eigentlich schon immer
Unicode-tauglich in dem Sinne, dass sie auf Unicode bezogene
interne Tabellen enthalten. Leider konnte man damit bisher nicht viel
anfangen. In neueren Browsern ist das nun anders, erfordert aber
folgendes, um zu funktionieren:
1.) Die Einstellungen fuer die Kodierung Unicode muessen auf den
gewuenschten Font zeigen. (In Netscape etwa ueber das Menue
Preferences => Fonts einzustellen)
2.) Die Kodierung UTF=8 muss gewaehlt sein, entweder manuell, oder
besser die HTML-Seite enthaelt die Zeile
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
dann sollte das automatisch funktionieren.
Nach meinen rudimentaeren Experimenten funktioniert so etwas auch
z.B. auf dem Macintosh, wenn ein Font vorhanden ist, der die
gewuenschten Zeichen enthaelt.
> Ich kam aber nie weiter, weil es mir an den Fonts fehlte
> (Browser auf UNICODE einstellen bringt kommentarlos nur
> Verschlechterungen).
>
> Verstehe ich es richtig, dass es so etwas wie "UNICODE-codierte"
> Fonts gibt? Gibt es ausser Bitstream Cyberbit noch weitere
> frei erhaeltliche? Weiss jemand, wann auch die Fonts
> Bestandteil welcher Betriebsysteme werden?
Der Bitstream font ist mit 13 MB ein ziemliches Monstrum und recht
unhandlich, falls man nicht an den 20000 chinesischen Zeichen
interessiert ist, die er u.a. enthaelt. Andere Fonts, wie etwa der
Arial-Font (und damit auch der allegro-font, der dies geerbt hat),
enthalten eine Sammlung von ca. 650 Zeichen, die sogenannten MS UGL
Zeichen. Nach meiner Einschaetzung sollten damit auch schon die im
Ost-West font ergaenzten Zeichen drin sein, ich habe es aber im
Detail (noch) nicht nachgeprueft.
Ansprechbar sind diese z.B. in Word97 ueber die Funktion
"Sonderzeichen einfuegen" (je nach Kontext muss man auch den Namen
des gewuenschten Fonts eintragen).
In der oben angegeben Datenbank ist uebrigens der Inhalt der
datenbank in UTF-8. Fuer die Index-Generierung etc. mussten dann
einige Klimmzuege gemacht werden, die Kenntnisse der Struktur der
Daten ausnutzten. Hier waere es aus meiner Sicht wuenschenswert, wenn
UTF-8 auch offiziell als Format der Datenbank unterstuetzt wuerde.
Ich stelle mir den Programmieraufwand nicht so hoch vor, angesichts
der Eigenschaften von UTF-8, wie bei einer "echten" Unterstuetzung
fuer Unicode:
- belegt denselben Wertebereich von Zeichen wie ANSI (oder CP 437)
- im ASCII-Bereich (0-127) sind die Codewerte mit ASCII identisch
Problematisch ist hoechstens:
- Die Laenge der Kodierung fuer die einzelnen Zeichen ist
unterschiedlich (zw. 1 und 3 byte). Dafuer sieht man aber jedem byte
an, ob es selbstaendig ist, oder Teil einer 2er oder 3er Gruppe.
Vorlaeufig bleibt es aber doch wohl leider Wunschvorstellung...
Alles Gute, Christian Wittern
Dr. des. Christian Wittern Visit the
Department of East-Asian Cultures Database of
University of Goettingen Chinese Buddhist texts
Papendiek 16 at http://www.gwdg.de/~cwitter
D-37073 Goettingen
Mehr Informationen über die Mailingliste Allegro