Unicode-Unterstuetzung i.Vb.

Bernhard Eversberg ev at buch.biblio.etc.tu-bs.de
Mi Jan 15 11:08:58 CET 2003


Zu Bergers Anmerkungen:

> UTF-7 ist folgendes:
> http://www.landfield.com/rfcs/rfc2152.html
> Was Sie meinen ist "ASCII-Text mit Unicode-Entitaeten" (keine Ahnung,
> ob es einen offiziellen Namen dafuer gibt), 

Korrekt, aber wir sagen einfach mal UTF-7 und meinen damit in unserem Kontext 
ausschliesslich "Entitaeten" der Form  &#N; mit einer Dezimalzahl N. Wir wollen 
nicht die unter "UTF-7" insgesamt zulaessigen Dinge alle ausschoepfen, das ist in 
unserem Kontext einfach unnoetig.

> 
> > Denn UTF-8 wuerde sich mit den vorhandenen OstWest-Codes beissen.
> 
> beisst/biss sich anderswo auch mit vorhandenem ISO8859-1, CP850 etc. Da 
> waere dann ein Schalter irgendwo faellig, auch nicht so ungewoehnlich...
Solche Loesung scheint uns momentan nicht sympathisch, daher wollen wir das 
vermeiden.

> > ... wird es ein Export-Unterprogramm geben, das die Diakritika mit den
> > nachfolgenden Zeichen vertauscht bzw. umgekehrt. (Zu beachten ist dabei, dass
> > auch zwei oder mehr Diakritika aufeinander folgen koennen...)
> 
> Auf jeden auszugebenden Text anwenden:
> 
> #nr dCx dcX Z
> ...
Man staunt immer mal wieder, was unsere Exportsprache alles kann...
Solche trickreichen, nur fuer Fortgeschrittene durchschaubaren Abhilfen, deren 
Einbau in vorhandene Parameter vergleichsweise sehr aufwendig ist, sollen aber 
durch ein relativ simples Unterprogramm unnoetig gemacht werden!

> > Es gibt jetzt aber eine "Amtliche Tabelle der
> > Standard-Zeichencodes":
> 
> weicht diese Zuordnung irgendwo ab von der alten, "amtlichen" Zuordnung,
> wie sie in den Kommentaren der o.apt enthalten ist?
Nein, ist identisch!

> > Mit V23.0 wird es dann schon P-UTF7.APT und P-UTF8.apt geben sowie das besagte
> > Export-Unterprogramm, damit man bequem Exporte herstellen kann, vor allem
> > solche, die fuer Web-Angebote einsetzbar sind. Denn Browser koennen UTF-7 und
> > UTF-8 darstellen.
> 
> Ich habe eine .cpt-Datei, die beides kann: Wird SRCH mit -UTF8
> aufgerufen,
> so wird UTF-8 erzeugt, sonst ASCII mit &#nnn;-Entitaeten :-)
> 
Sehr schoen, fuer den Normalverbraucher wollen wir aber 2 Tabellen, die
ohne weitere Handgriffe und Kenntnisse eingesetzt werden koennen.

> Mittelfristig, so finde ich, sollte man auch im Hinblick auf Importe
> eine Unicode-Unterstuetzung einbauen: Anwendungen koennten dann mittels
> einer hypothetischen u-Tabelle das Mapping zwischen dem benutzten
> Zeichensatz und Unicode deklarieren, die allegro-Module machen dann
> den Rest...
> 
Derartiges wird noch durchdacht werden muessen, soweit sind wir noch nicht.
In Fremddaten der Zukunft wird womoeglich eine bunte Vielfalt der diversen 
Unicode-Realisierungen vorzufinden sein...

MfG B.E.


Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de  




Mehr Informationen über die Mailingliste Allegro