Unicode-Unterstuetzung i.Vb.
Bernhard Eversberg
ev at buch.biblio.etc.tu-bs.de
Mi Jan 15 08:11:32 CET 2003
Fuer V23 wird angestrebt, etwas mehr Unterstuetzung fuer das Textcodierungssystem
Unicode zu bieten.
Eine *Unicode-Version*, die intern mit der echten 2-Byte-Codierung arbeiten
wuerde, wird es in absehbarer Zeit *nicht* geben, das sei vorweg gesagt. Die
Probleme sind zu gross, zum Teil sind gar keine Loesungsansaetze in Sicht
(Index!), die Datendateien wuerden sich im Umfang verdoppeln (auch .STL), die
Version waere nicht mehr abwaerts kompatibel - um ein paar Dinge zu nennen.
Abwaerts-Kompatibilitaet soll vorerst auf jeden Fall gewahrt bleiben, man soll
exisiterende Datenbanken nicht umwandeln muessen. Dann bleibt nur, dass man
zusaetzlich ermoeglicht, UTF-7-Codes einzugeben, z.B. Á fuer A mit Akut.
Denn UTF-8 wuerde sich mit den vorhandenen OstWest-Codes beissen.
Eine Besonderheit muss erwaehnt werden: Unicode ermoeglicht auch freie
Kombinationen von Buchstaben mit Akzenten, setzt aber das Diakritikum HINTER den
zu akzentuierenden Buchstaben statt, wie wir es immer propagiert haben, davor.
Dafuer wird es ein Export-Unterprogramm geben, das die Diakritika mit den
nachfolgenden Zeichen vertauscht bzw. umgekehrt. (Zu beachten ist dabei, dass
auch zwei oder mehr Diakritika aufeinander folgen koennen...)
Noch stehen etliche Dinge nicht fest, diese Information ist also recht vorlaeufig.
Es gibt jetzt aber eine "Amtliche Tabelle der Standard-Zeichencodes":
http://www.allegro-c.de/zcodes.htm
aus der man alle DOS-, Windows-, UTF-7-, UTF-8- und Original-Unicodes sowie die
normierten Unicode-Namen der Zeichen entnehmen kann. Diese Tabelle ist so
gestaltet, dass man sich daraus mittels geeigneten makrofaehigen Editors (z.B.
X.EXE) die evtl. benoetigten Parameter ableiten kann.
Dank an T. Berger, dessen Fleissarbeit zum Zustandekommen dieser Tabelle
beigetragen hat. Er hat weitere, voluminoese Tabellen etc. im Angebot:
http://www.gymel.com/charsets/
Mit V23.0 wird es dann schon P-UTF7.APT und P-UTF8.apt geben sowie das besagte
Export-Unterprogramm, damit man bequem Exporte herstellen kann, vor allem solche,
die fuer Web-Angebote einsetzbar sind. Denn Browser koennen UTF-7 und UTF-8
darstellen.
MfG B.E.
Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel. +49 531 391-5026 , -5011 , FAX -5836
e-mail B.Eversberg at tu-bs.de
Mehr Informationen über die Mailingliste Allegro