[Allegro] Zeichensatztabelle

Thomas Berger ThB at Gymel.com
Do Mär 5 10:12:46 CET 2009


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Lieber Herr Eversberg, liebe Liste,

> Wir mußten diesen Aufwand seinerzeit treiben, um die Rückwärts-
> kompatibilität sicherzustellen. Jahrelang war es ja so, daß man
> auf die DOS-Programme nicht ganz verzichten konnte, insbes. auf
> PRESTO und SRCH. Und andernfalls hätten wir alle zwingen müssen,
> alle Datenbanken umzucodieren.

Womit wir wieder beim Wunschzettel fuer V30 waeren. Jedoch nicht
als Zwang, sondern als (dann jedoch offiziell unterstuetzte)
Option.

Was mir vorschwebt, ist ein Zwischending aus den "Methode 1" und
"Methode 2" genannten Paradigmen ( http://www.allegro-c.de/unicode/ ),
d.h. analog "Methode 1" Nutzung von HTML-Entitaeten fuer alles nicht
herkoemmlich abbildbare, dabei nicht so weitgehend wie Methode 2 (nur
7bittiges ueberlebt als direktes Zeichen), jedoch auch nicht so
minimal wie Methode 1 (OSTWEST-codierte Zeichen bleiben besetehen):

"Methode 1.5" wuerde den Standard-Zeichensatz des Systems (also
meist CP850) voraussetzen und alle dort nicht abbildbaren Zeichen
als numerische Entitaeten codieren.

Man sollte ueberlegen, ob "Methode 1" nicht einen Zwischenschritt
dorthin darstellen kann, D.h. ausgehend von den wenigen Eingriffen,
die eine bestehende Datenbank (mit eher beliebiger Codierung) auf
die zusaetzliche Nutzung von numerischen Entitaeten umstellen,
in einem weiteren Schritt dann die Umsetzung von Nicht-Standard-
Codes auf numerische Entitaeten anbieten / den Anwender durchfuehren
lassen, bis dann eine in Standard-Zeichensaetzen codierte Datenbank
erreicht ist.

Die Nutzung von V-Sequenzen hat ja den grossen Vorteil, dass man
viele Umcodierungen quasi datenbankgestuetzt definieren kann, der
Parameter ia (leider in http://www.allegro-c.de/unicode/ nicht
erwaehnt) ist ein sehr maechtiges Werkzeug um diverse Zielformate
zu unterstuetzen und durch eine Anweisung zu aktivieren. Insofern
kann ein einzelner globaler Schalter von "VS-Sequenzen mit allegro-
Zeichensaetzen" zu "VS-Sequenzen mit Standard-Fonts" umstellen (wenn
erst einmal die Daten nur noch Standard-Zeichen enthalten, die
Anwendung jedoch weiterhin OSTWEST-aktiviert ist), das ist marginal
im Vergleich zum notwendigen Austausch von p/q/u/i-Tabellen.

Sehr wichtige Schritte hierzu sind in den Standardparametern schon seit
Jahren weitestgehend realisiert: Naemlich der Vericht auf
Zeichensatz-Mix (zwischen dem "Quellzeichensatz", in dem auch die
Daten codiert sind, und dem jeweiligen Zielzeichensatz).

Also nicht:
#23S p{C t103 "Sp„terer Titel: " 111} ,"_¶_ ; _"          - späterer Titel

sondern:
#23S p{C t103} "Späterer Titel: |" e"|"                   - späterer Titel
#23S p111 ,"_¶_ ; _"

D.h. menschenlesbare Textfragmente in den Parametern sind denselben
Umcodierungen unterworfen wie die Daten selbst, muessen also nicht gesondert
beruecksichtigt werden (bzw. erst dann, wenn die Zeichen nicht mehr
vorkommen duerfen, was bei Unicode-Methdode 2 schnell der Fall waere).


In einer Mail "v23 getestet" (
http://sun250.biblio.etc.tu-bs.de/pipermail/allegro/2007-June/026180.html )
habe ich so eine Migration beschrieben und auch die Detailprobleme
benannt (fundamentale, wie dass es in CP1252 kein Dreieck gibt und
allegro-spezifische, naemlich dass 2007 (!) gewisse Dinge nicht so
funktionierten, wie ich (!!) es erwartet hatte).


viele Gruesse
Thomas Berger
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.3-nr1 (Windows XP)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org

iQCVAwUBSa+XjWITJZieluOzAQIkdgP9EdBDVzt6kCSo9KBZqnnHenZCMnQzzplt
Mp7AlhaS/VwO2XaHhPpd/3mpXlfCP6yYbom8sD54LElb+c08z3BbWW2LPPjBDl4K
iOr7g+v06CNpK+C9c1S2xdmVyRmTirKknZWy2ABIHBYcTgUPM48Q7Jki4tQ/9SK1
rzZ9C2FAM8Q=
=xk20
-----END PGP SIGNATURE-----



Mehr Informationen über die Mailingliste Allegro