apt-dateien-> ansiasci.apt dort fehler?

Thomas Berger ThB at gymel.com
So Feb 2 23:05:09 CET 2003


Lieber Herr Lehmann, liebe Liste,

> ich beschäftige mich gerade mit der umwandlung von ansi-texten (bin z.b. mir immer noch nicht sicher, daß
> diese imdb-listen im reinen[?] ansi-zeichensatz geschriebe sind...) nach asci.

"ANSI-Zeichensatz" ist etwas, was es in der Form eigentlich
nicht gibt, man (=Microsoft?) meint mit "ANSI-Zeichensatz"
normalerweise den 8-bit Zeichensatz CP1252, dies ist seit
Windows 3. allerdings einige Male erweitert worden, ich
weiss nicht, ob die entsprechende ANSI-Norm (welche, ist
nicht herauszufinden) auch geaendert wurde.
(ANSI ist das Akronym fuer die Standardisierungsorganisation,
die auch den "ASCII-Zeichensatz" normiert hat).
"ANSI-Zeichensatz" ist eine durch ANSI definierte 8bit-Erweiterung 
des ASCII-Zeichensatzes, der ebenfalls durch ANSI normiert
wurde. Moeglicherweise werden inzwischen sogar saemtliche
anderen Windows-Codepages (CP1250, ...) "ANSI-Zeichensaetze" 
genannt.

Der "ASCII-Zeichensatz" ist ein 7-bit Zeichensatz, bzw.
eine Familie davon (7 Zeichen konnten national jeweils
anders verabredet werden), seit ca. 10 Jahren ist aber
eigentlich nur die IRV-Version hiervon (die mit den
geschweiften Klammern) gebraeuchlich. Man spricht manchmal
vom (erweitertenm, 8bit-)ASCII-Zeichensatz, wenn man die
IBM-Erweiterungen des ASCII-Zeichensatzes meint, die
als CP437 bekannt sind. CP437 ist allerdings nicht die
DOS-Version von CP1252, dies ist CP850 (umgekehrt: zu
CP437 gibt es keine "Windows-Version").

Im Allegro-Jargon hingegen ist "ASCII-Zeichensatz" der durch den
Ostwest-Font definierte 8-bit(!)-Zeichensatz namens allegro-OstWest
fuer die Nutzung unter DOS. Dieser OstWest-Zeichensatz ist
urspruenglich durch "Umwidmung" aus der Codepage 437 entstanden.

"ANSI-Zeichensatz" ist im allegro-Jargon die im wesentlichen durch
die Vorschrift in der Tabelle o.apt definierte Abbildung von 
allegro-Ostwest, die ich "allegro-Windows" nenne, allegro-offiziell
aber hat sie ueberhaupt keinen Namen (ausser eben "ANSI"), 
jedenfalls ebenfalls ein 8-bit-Zeichensatz zur Nutzung unter 
Windows, entstanden durch Umwidmung von CP 1252.

Alle fuenf Zeichensaetze stimmen in den Zeichen 32-127
ueberein.


Um es kurz zu machen: Allegro-Jargon sagt "ASCII", wenn
es um eine private Variante eines Zeichensatzes geht,
den allegro anstelle eines Zeichensatzes benutzt, den andere
Leute unkorrekterweise "ASCII" nennen, der aber korrekterweise
"Irgendeiner der vielen Nachfolger von IBM extended ASCII" 
heissen sollte (oder "mein aktueller DOS-Zeichensatz").

Allegro-Jargon sagt "ANSI", wenn es um eine private Variante
eines Zeichensatzes geht, den allegro anstelle eines Zeichensatzes
benutzt, den andere Leute nachlaessig "ANSI" nennen, der
aber korrekterweise "ANSI-extended ASCII" heissen sollte
(oder "mein aktueller Windows-Zeichensatz"?).

Noch kuerzer: Jeder sagt "ASCII"-Zeichensatz, wenn er in
Wirklichkeit irgendeinen DOS-Zeichensatz meint und
"ANSI-Zeichensatz", wenn er in Wirklichkeit irgendeinen
Windows-Zeichensatz meint.


> und da ist mir in ansiasci.apt DAS aufgefallen:

Insbesondere ist ansiasci.apt nichts anderes als die inverse
Transformation der o.apt, d.h. eine Umwandlung von allegro-Windows 
nach allegro-OstWest. Sie ist daher ziemlich ungeeignet dafuer, 
Texte die man anderswo gefunden hat, nach allegro-OstWest zu
uebersetzen, denn diese Texte sind naturgemaess nie allegro-Windows
("ANSI") noch CP1252 ("ANSI"), sondern typischerweise ISO 8859-1 
(das ist allerdings eine Untermenge von CP1252 und bestimmt
nennt irgendwer das auch "ANSI").

Die Tabelle, die Sie suchen, finden Sie vermutlich unter
http://www.gymel.com/charsets/crosstabs.html

viele Gruesse
Thomas Berger




Mehr Informationen über die Mailingliste Allegro