UNicode und allegro (was:Re: EBOX ist da)

cwitter at gwdg.de cwitter at gwdg.de
Fr Jan 16 15:47:01 CET 1998


Thomas Berger schrieb>
> Christian Wittern wrote:
> 
> > Eine Probe-Installation ist noch verfuegbar, wird aber wohl
> > demnaechst mangels Speicherplatz abgebaut. Sie ist erreichbar unter
> > http://www.kb.oas.hist.uni-goettingen.de/cgi-bin/maske.pl?db=canon
> 
> leider nicht mehr.

Sorry, da habe ich mich mit der URL verhaspelt:

http://www.kb.oas.hist.uni-goettingen.de/cgi-bin/acwww25/maske.pl?db=canon

muss es richtig heissen.

 
> > Die Datenbank enthaelt hauptsaechlich Chinesisch. Damit Sie
> > ueberhaupt etwas machen koennen, waehlen Sie bitte das Register 3
> > (Titles (Pinyin) und geben z.B. fahuajing als Start fuer das Register
> > an. Fuer die Darstellung brauchen Sie dann einen Unicode-Font, oder
> > wenigstens einen Chinesisch-Font, sonst sehen SIe nur lauter
> > rechteckige Kaestchen. Neben den MS-Languagepacks, die zusammen mit
> > dem Internet-Explorer vertrieben werden, gibt es auch den Font
> > Bitstream Cyberbit, der eine grosse Teilmenge von Unicode enthaelt
> > und frei verfuegbar ist unter http://www.bitstream.com.
> 
> Hochinteressant. In NT ist ja UNICODE seit immer eingebaut,
> und auch die 4er-Versionen von Netscape und Microsoft-
> Browsern unterstuetzen UTF-8. In HTML 3.2, zumindest aber
> in HTML 4.0 ist ja auch ein UTF-8 encoding offiziell 
> erlaubt. Fuer die Darstellung von OSTWEST-Zeichen etc.
> wollte ich bei WWW-Applikationen eigentlich recht bald
> intern wie auch vor allem fuer die gelieferten Daten UNICODE
> einsetzen, um Zeichensatzprobleme fuer immer :-) auszuschliessen.

TTF fonts auf MS Plattformen sind eigentlich schon immer 
Unicode-tauglich in dem Sinne, dass sie auf Unicode bezogene 
interne Tabellen enthalten. Leider konnte man damit bisher nicht viel 
anfangen. In neueren Browsern ist das nun anders, erfordert aber 
folgendes, um zu funktionieren:
1.) Die Einstellungen fuer die Kodierung Unicode muessen auf den 
gewuenschten Font zeigen. (In Netscape etwa ueber das Menue 
Preferences => Fonts einzustellen)
2.) Die Kodierung UTF=8 muss gewaehlt sein, entweder manuell, oder 
besser die HTML-Seite enthaelt die Zeile 

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">

dann sollte das automatisch funktionieren.

Nach meinen rudimentaeren Experimenten funktioniert so etwas auch 
z.B. auf dem Macintosh, wenn ein Font vorhanden ist, der die 
gewuenschten Zeichen enthaelt.

 
> Ich kam aber nie weiter, weil es mir an den Fonts fehlte
> (Browser auf UNICODE einstellen bringt kommentarlos nur
> Verschlechterungen).
> 
> Verstehe ich es richtig, dass es so etwas wie "UNICODE-codierte"
> Fonts gibt? Gibt es ausser Bitstream Cyberbit noch weitere
> frei erhaeltliche? Weiss jemand, wann auch die Fonts 
> Bestandteil welcher Betriebsysteme werden?

Der Bitstream font ist mit 13 MB ein ziemliches Monstrum und recht 
unhandlich, falls man nicht an den 20000 chinesischen Zeichen 
interessiert ist, die er u.a. enthaelt. Andere Fonts, wie etwa der 
Arial-Font (und damit auch der allegro-font, der dies geerbt hat), 
enthalten eine Sammlung von ca. 650 Zeichen, die sogenannten MS UGL 
Zeichen. Nach meiner Einschaetzung sollten damit auch schon die im 
Ost-West font ergaenzten Zeichen drin sein, ich habe es aber im 
Detail (noch) nicht nachgeprueft.
Ansprechbar sind diese z.B. in Word97 ueber die Funktion 
"Sonderzeichen einfuegen" (je nach Kontext muss man auch den Namen 
des gewuenschten Fonts eintragen).

In der oben angegeben Datenbank ist uebrigens der Inhalt der 
datenbank in UTF-8. Fuer die Index-Generierung etc. mussten dann 
einige Klimmzuege gemacht werden, die Kenntnisse der Struktur der 
Daten ausnutzten. Hier waere es aus meiner Sicht wuenschenswert, wenn 
UTF-8 auch offiziell als Format der Datenbank unterstuetzt wuerde. 
Ich stelle mir den Programmieraufwand nicht so hoch vor, angesichts 
der Eigenschaften von UTF-8, wie bei einer "echten" Unterstuetzung 
fuer Unicode:

- belegt denselben Wertebereich von Zeichen wie ANSI (oder CP 437) 
- im ASCII-Bereich (0-127) sind die Codewerte mit ASCII identisch

Problematisch ist hoechstens:

- Die Laenge der Kodierung fuer die einzelnen Zeichen ist 
unterschiedlich (zw. 1 und 3 byte). Dafuer sieht man aber jedem byte 
an, ob es selbstaendig ist, oder Teil einer 2er oder 3er Gruppe.

Vorlaeufig bleibt es aber doch wohl leider Wunschvorstellung...

Alles Gute, Christian Wittern
 
Dr. des. Christian Wittern                       Visit the 
Department of East-Asian Cultures              Database of 
University of Goettingen            Chinese Buddhist texts
Papendiek 16                at http://www.gwdg.de/~cwitter
D-37073 Goettingen




Mehr Informationen über die Mailingliste Allegro