Unicode-Unterstuetzung i.Vb.
Thomas Berger
ThB at gymel.com
Mi Jan 15 10:12:29 CET 2003
Lieber Herr Eversberg, liebe Liste,
> Abwaerts-Kompatibilitaet soll vorerst auf jeden Fall gewahrt bleiben, man soll
> exisiterende Datenbanken nicht umwandeln muessen. Dann bleibt nur, dass man
> zusaetzlich ermoeglicht, UTF-7-Codes einzugeben, z.B. Á fuer A mit Akut.
UTF-7 ist folgendes:
http://www.landfield.com/rfcs/rfc2152.html
Was Sie meinen ist "ASCII-Text mit Unicode-Entitaeten" (keine Ahnung,
ob es einen offiziellen Namen dafuer gibt), was *im Kontext* von
HTML/XML/
SGML durchaus aequivalent ist
> Denn UTF-8 wuerde sich mit den vorhandenen OstWest-Codes beissen.
beisst/biss sich anderswo auch mit vorhandenem ISO8859-1, CP850 etc. Da
waere dann ein Schalter irgendwo faellig, auch nicht so ungewoehnlich...
> Eine Besonderheit muss erwaehnt werden: Unicode ermoeglicht auch freie
> Kombinationen von Buchstaben mit Akzenten, setzt aber das Diakritikum HINTER den
> zu akzentuierenden Buchstaben statt, wie wir es immer propagiert haben, davor.
> Dafuer wird es ein Export-Unterprogramm geben, das die Diakritika mit den
> nachfolgenden Zeichen vertauscht bzw. umgekehrt. (Zu beachten ist dabei, dass
> auch zwei oder mehr Diakritika aufeinander folgen koennen...)
Auf jeden auszugebenden Text anwenden:
#nr dCx dcX Z
#ucx dcx AcX
#-_
#ucX E"[¦¦++++¦¦----++____]" Acx
#ucX +#ucx dcX b"[¦¦++++¦¦----++____]" AcX % Akzent erwischt?
#nr +#dts Z % sonst fertig
% (falls #ucx illegal mit einem Akzent endete, ist dieser nun
vernichtet)
#ucx y0 T1 c"[¦¦++++¦¦----++____]" aCx % Akzent
zwischenspeichern
#ucx dcx y0 t1 b0 acx % Korrektur 1 Zeichen
#-_
#ucX y0 e1 aCx
#ucX y0 dcX b1 acX
#uCx +_ y0 e1 c"[¦¦++++¦¦----++____]" Z % begann mit weiterem
Diakr.
#uCx +_ dCx Acx % Grundbuchstabe vorne, an Ergebnis anhaengen
#dts Z
> Noch stehen etliche Dinge nicht fest, diese Information ist also recht vorlaeufig.
> Es gibt jetzt aber eine "Amtliche Tabelle der Standard-Zeichencodes":
> http://www.allegro-c.de/zcodes.htm
weicht diese Zuordnung irgendwo ab von der alten, "amtlichen" Zuordnung,
wie sie in den Kommentaren der o.apt enthalten ist?
> Mit V23.0 wird es dann schon P-UTF7.APT und P-UTF8.apt geben sowie das besagte
> Export-Unterprogramm, damit man bequem Exporte herstellen kann, vor allem solche,
> die fuer Web-Angebote einsetzbar sind. Denn Browser koennen UTF-7 und UTF-8
> darstellen.
Ich habe eine .cpt-Datei, die beides kann: Wird SRCH mit -UTF8
aufgerufen,
so wird UTF-8 erzeugt, sonst ASCII mit &#nnn;-Entitaeten :-)
Mittelfristig, so finde ich, sollte man auch im Hinblick auf Importe
eine Unicode-Unterstuetzung einbauen: Anwendungen koennten dann mittels
einer hypothetischen u-Tabelle das Mapping zwischen dem benutzten
Zeichensatz und Unicode deklarieren, die allegro-Module machen dann
den Rest...
viele Gruesse
Thomas Berger
Mehr Informationen über die Mailingliste Allegro