[Allegro] A99, Classico und Zeichensätze

Thomas Fischer fischer at sub.uni-goettingen.de
Fr Jul 3 10:11:49 CEST 2009


Liebe KollegInnen,

mein Kampf mit den Zeichensätzen hat mir noch einmal klar gemacht, dass es
bei A99/Allegro einen ziemlich dringenden Bedarf an zusätzlicher Klarheit
gibt.

Das bezieht sich einerseits auf die Bezeichnung der Zeichensätze selbst:
Herr Berger schreibt:
> Das fuehrt dann zu exakt den Missverstaendnissen, die wir 
> diese Woche hatten, als Herr Eversberg mindestens 5 Mails 
> lang nicht eimal bemerkt hat, dass Herr Fischer mit 
> "ANSI-Ostwest" eben gerade nicht "Ostwest" meinte.

Zum zweiten auf die Dokumentation:
h codier
und die dort unter "Codetabellen zur Auswahl" angebotene ViewList liefern
nicht die nötigen Informationen und nicht die benötigten Tabelle, andere
Listen
http://sun250.biblio.etc.tu-bs.de/pipermail/allegro/2007-November/026963.htm
l
sind veraltet.

Noch wesentlicher ist aber zum dritten die strukturelle Frage (und die wird
durch neue FLEX&Flex-Entwicklungen nicht überflüssig, sondern wird sich da
vermutlich noch klarer stellen).
Meine Grundthese ist, dass Konfiguration und Zeichensatz voneinander
unabhängig sind (bzw. sein sollten).
Hier bitte ich um Widerspruch, wenn jemand das grundsätzlich anders sieht.

Was ich meine ist, dass man (z.B.) eine A-Konfiguration intern mit einem
DOS- oder ANSI-OstWest-Zeichensatz fahren kann, genauso wie mit Standard
DOS- und Windows-Zeichensätzen, und möglichst auch mit verschiedenen
Erweiterungen um Entitäten, außerdem mit UTF-8. Von mir aus auch mit anderen
Zeichensätzen (Mitteleuropa, baltisch, kyrillisch), alles ohne komplizierte
Umbaumaßnahmen.
Der benutzte Zeichensatz sollte in der Konfigurationsdatei festgehalten
werden und sich auf etwaige 1-1-Transformationen auswirken (o-Tabelle etc.),
wenn das nötig ist.

Transformationstabellen sollten von der benutzten Konfiguration
grundsätzlich unabhängig sein und in den verschiedenen Parameterdateien
ausgetauscht (bzw. (de-)aktiviert) werden können. Das heißt, sie sollten
normalerweise auch eine konfigurationsunabhängige Endung . at pt haben.

Soweit ich sehe stehen dem aktuell nur wenige Probleme entgegen, eines ist
z.B. die Nutzung spezieller Zeichen in der Konfigurationsdatei für
Füllzeichen, Nichtsortierzeichen, Teilfelder, Entstoppung etc.
Da ließe sich vielleicht eine flexiblere Lösung (wie bei den
Teilfeldzeichen: unabhängig von der Setzung kann das Teilfeld als $
angesprochen werden) oder eine feste Setzung (was spricht gegen ASCII 0 für
Füllzeichen?) finden.

Ganz unglücklich ist es, wenn Zeichensatz und Konfiguration
durcheinandergebracht werden:
d-utf8.apt ist eine Tabelle DOS-OstWest -> UTF-8 und
d-utf8.npt ist eine Tabelle ANSI-OstWest -> UTF-8.
Preisfrage:
Welche Tabelle benötige ich, wenn ich mit A-Schema und ANSI-Zeichensatz
arbeiten will?

Mit freundlichen Grüßen
Thomas Fischer 




Mehr Informationen über die Mailingliste Allegro