Unicode-Unterstuetzung i.Vb.

Thomas Berger ThB at gymel.com
Mi Jan 15 10:12:29 CET 2003


Lieber Herr Eversberg, liebe Liste,

> Abwaerts-Kompatibilitaet soll vorerst auf jeden Fall gewahrt bleiben, man soll
> exisiterende Datenbanken nicht umwandeln muessen. Dann bleibt nur, dass man
> zusaetzlich ermoeglicht, UTF-7-Codes einzugeben, z.B. Á fuer A mit Akut.

UTF-7 ist folgendes:
http://www.landfield.com/rfcs/rfc2152.html

Was Sie meinen ist "ASCII-Text mit Unicode-Entitaeten" (keine Ahnung,
ob es einen offiziellen Namen dafuer gibt), was *im Kontext* von
HTML/XML/
SGML durchaus aequivalent ist


> Denn UTF-8 wuerde sich mit den vorhandenen OstWest-Codes beissen.

beisst/biss sich anderswo auch mit vorhandenem ISO8859-1, CP850 etc. Da 
waere dann ein Schalter irgendwo faellig, auch nicht so ungewoehnlich...


> Eine Besonderheit muss erwaehnt werden: Unicode ermoeglicht auch freie
> Kombinationen von Buchstaben mit Akzenten, setzt aber das Diakritikum HINTER den
> zu akzentuierenden Buchstaben statt, wie wir es immer propagiert haben, davor.
> Dafuer wird es ein Export-Unterprogramm geben, das die Diakritika mit den
> nachfolgenden Zeichen vertauscht bzw. umgekehrt. (Zu beachten ist dabei, dass
> auch zwei oder mehr Diakritika aufeinander folgen koennen...)

Auf jeden auszugebenden Text anwenden:

#nr dCx dcX Z
#ucx dcx AcX
#-_
#ucX E"[¦¦++++¦¦----++____]" Acx
#ucX +#ucx dcX b"[¦¦++++¦¦----++____]" AcX      % Akzent erwischt?
#nr +#dts Z                                     % sonst fertig
  % (falls #ucx illegal mit einem Akzent endete, ist dieser nun
vernichtet)

#ucx y0 T1 c"[¦¦++++¦¦----++____]" aCx          % Akzent
zwischenspeichern
#ucx dcx y0 t1 b0 acx                           % Korrektur 1 Zeichen
#-_
#ucX y0 e1 aCx
#ucX y0 dcX b1 acX
#uCx +_ y0 e1 c"[¦¦++++¦¦----++____]" Z         % begann mit weiterem
Diakr.

#uCx +_ dCx Acx           % Grundbuchstabe vorne, an Ergebnis anhaengen

#dts Z


 
> Noch stehen etliche Dinge nicht fest, diese Information ist also recht vorlaeufig.
> Es gibt jetzt aber eine "Amtliche Tabelle der Standard-Zeichencodes":
>    http://www.allegro-c.de/zcodes.htm

weicht diese Zuordnung irgendwo ab von der alten, "amtlichen" Zuordnung,
wie sie in den Kommentaren der o.apt enthalten ist?


> Mit V23.0 wird es dann schon P-UTF7.APT und P-UTF8.apt geben sowie das besagte
> Export-Unterprogramm, damit man bequem Exporte herstellen kann, vor allem solche,
> die fuer Web-Angebote einsetzbar sind. Denn Browser koennen UTF-7 und UTF-8
> darstellen.

Ich habe eine .cpt-Datei, die beides kann: Wird SRCH mit -UTF8
aufgerufen,
so wird UTF-8 erzeugt, sonst ASCII mit &#nnn;-Entitaeten :-)

Mittelfristig, so finde ich, sollte man auch im Hinblick auf Importe
eine Unicode-Unterstuetzung einbauen: Anwendungen koennten dann mittels
einer hypothetischen u-Tabelle das Mapping zwischen dem benutzten
Zeichensatz und Unicode deklarieren, die allegro-Module machen dann
den Rest...

viele Gruesse
Thomas Berger




Mehr Informationen über die Mailingliste Allegro