Unicode-Unterstuetzung i.Vb.

Bernhard Eversberg ev at buch.biblio.etc.tu-bs.de
Mi Jan 15 08:11:32 CET 2003


Fuer V23 wird angestrebt, etwas mehr Unterstuetzung fuer das Textcodierungssystem 
Unicode zu bieten.
Eine *Unicode-Version*, die intern mit der echten 2-Byte-Codierung arbeiten 
wuerde, wird es in absehbarer Zeit *nicht* geben, das sei vorweg gesagt. Die 
Probleme sind zu gross, zum Teil sind gar keine Loesungsansaetze in Sicht 
(Index!), die Datendateien wuerden sich im Umfang verdoppeln (auch .STL), die 
Version waere nicht mehr abwaerts kompatibel - um ein paar Dinge zu nennen.

Abwaerts-Kompatibilitaet soll vorerst auf jeden Fall gewahrt bleiben, man soll 
exisiterende Datenbanken nicht umwandeln muessen. Dann bleibt nur, dass man
zusaetzlich ermoeglicht, UTF-7-Codes einzugeben, z.B. Á fuer A mit Akut. 
Denn UTF-8 wuerde sich mit den vorhandenen OstWest-Codes beissen.
Eine Besonderheit muss erwaehnt werden: Unicode ermoeglicht auch freie 
Kombinationen von Buchstaben mit Akzenten, setzt aber das Diakritikum HINTER den 
zu akzentuierenden Buchstaben statt, wie wir es immer propagiert haben, davor.
Dafuer wird es ein Export-Unterprogramm geben, das die Diakritika mit den 
nachfolgenden Zeichen vertauscht bzw. umgekehrt. (Zu beachten ist dabei, dass 
auch zwei oder mehr Diakritika aufeinander folgen koennen...)

Noch stehen etliche Dinge nicht fest, diese Information ist also recht vorlaeufig.
Es gibt jetzt aber eine "Amtliche Tabelle der Standard-Zeichencodes":
   http://www.allegro-c.de/zcodes.htm
aus der man alle DOS-, Windows-, UTF-7-, UTF-8- und Original-Unicodes sowie die
normierten Unicode-Namen der Zeichen entnehmen kann. Diese Tabelle ist so 
gestaltet, dass man sich daraus mittels geeigneten makrofaehigen Editors (z.B. 
X.EXE) die evtl. benoetigten Parameter ableiten kann.
Dank an T. Berger, dessen Fleissarbeit zum Zustandekommen dieser Tabelle 
beigetragen hat. Er hat weitere, voluminoese Tabellen etc. im Angebot:
   http://www.gymel.com/charsets/

Mit V23.0 wird es dann schon P-UTF7.APT und P-UTF8.apt geben sowie das besagte
Export-Unterprogramm, damit man bequem Exporte herstellen kann, vor allem solche, 
die fuer Web-Angebote einsetzbar sind. Denn Browser koennen UTF-7 und UTF-8 
darstellen.

MfG B.E.



Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de  




Mehr Informationen über die Mailingliste Allegro