Anzeige der Sonderzeichen im Internet

Thomas Berger ThB at gymel.com
Do Aug 8 16:41:09 CEST 2002


Liebe Frau Lass, lieber Herr Fischer,

> ich bin bei den ersten Versuchen, eine Datenbank ins Internet zu bringen.
> Es funktioniert  schon ganz gut bis auf die Darstellung der Sonderzeichen.
> Ich benutze die d-html.apr (bisher unverändert). p-html.apt, p-ansi.apt,
> p-dos.apt und e-1.apr sind in dem Verzeichnis, in dem sich meine Datenbank
> befindet. Sind sie hier richtig?

Richtig sind sie, die Parameterdateien sind vermutlich die aus
acwww25:

D-HTML   APR        24.981  28.04.97  11:13 D-HTML.APR
P-ANSI   APT         3.099  07.11.96  16:18 P-ANSI.APT
P-DOS    APT           150  31.10.95  16:33 P-DOS.APT
P-HTML   APT         2.536  07.11.96  16:16 P-HTML.APT

Fuer die Zeichenumsetzungen in der Vollanzeige wichtig ist hier die 
p-html.apt, diese setzt jedoch nur die Zeichen um, die auch in 
ISO-8859-1 vorhanden sind, die anderen werden in Ruhe gelassen bzw.
zerstoert.

Fuer die Anzeige von Zeichen in der Kurzliste ist alleine
das CGI-Skript zustaendig, das muss von allegro-Windows
nach "Browserfaehig" umsetzen (wenn o.apt in die .api 
eingebunden ist, wenn nicht, funktioniert die Recherche
nicht), die Routine anz_prep von acwww25 geht jedoch davon
aus, dass o.apt nicht eingebunden ist, d.h. es setzt
von "echtem" Ostwest auf "Browserfaehig" um, allerdings
wiederum nur fuer die in ISO-8859-1 existierenden Zeichen.
[anz_prep war nicht geaendert worden, als acwww25 vor
5 Jahren von direktem Auslesen der .STL auf "Anliefernlassen
durch avanti" umgestellt wurde]

 
> Sowohl bei der Standardanzeig als auch beim allegro-Internformat werden
> meine Sonderzeichen nicht richtig dargestellt. Zum Bespiel wird statt des
> polnischen "durchgestrichenen" L ein U mit Akzent angezeigt aus dem
> Windows-Standardzeichensatz.

"allegro-Internformat" lassen wir einmal aussen vor, die Frage
ist nicht so recht entscheidbar, ob hierbei die Zeichen ueberhaupt
umgesetzt werden duerfen...


> Wo muss ich ansetzen?

aktuelle allegro-Versionen haben eine p-htm.apt, die mehr Zeichen
umsetzt, allerdings auf SGML-Entitaeten, die Internetbrowser ausserhalb
von ISO-8859-1 wiederum nicht verstehen, diese Datei kann Ihnen also
nur dabei helfen, durch Vergleich mit Ihrer p-html.apt die noch
zu behandelnden Zeichen zu ermitteln. Die eventuelle Sonderzeichen-
Problematik in der Kurztitelanzeige und dem "erweiterten Register"
bekommen Sie mit Parameterdateien nicht in den Griff.

Zum Thema "allgemein geeignete p-html.apt's etc." vgl. die Darstellung
unter:

http://www.gymel.com/bugzilla/long_list.cgi?buglist=130

[ja, ich habe irgendwo Ersetzungsbefehle, die sogar die Puenktchen ueber 
die "e" heben]



Herr Fischer schrieb:

> nach unseren Erfahrungen sind Sonderzeichen problematisch, wir haben uns
> daher für einen westlich-amerikanischen Kulturkreis auf "Latin-1"
> (ISO-8859-1, in etwa den Windows-Zeichensatz) beschränkt und die
> Tabellen entsprechend angepasst.
> Die Kodierung einer Schrift (charset), muss innerhalb eines
> HTML-Dokumentes für das ganze Dokument angegeben und kann nicht geändert
> werden. Für Ihr polnisches /L könnten Sie eine mitteleuropäische
> Kodierung (ISO-8859-2) einsetzen, aber dann bekommen Sie mit anderen
> Sonderzeichen (z.B. æ) Probleme. Wenn aber nur diese vorkommen, wäre das
> die richtige Lösung. 

Moeglicherweise. Sie muessen dann aber erwarten, dass Ihnen der
Browser Suchanfragen in ISO-8859-2 schickt. "Sauber" waere also
eine Datenbank, die nicht den OSTWEST-Font benutzt, sondern
CP852 (Osteuropaeisch) und fuer die Windows-Anzeige komplett
CP1250 (Windows Latin 2) und entsprechend angepasste d.apt, o.apt,
Druckertreiber etc. sowie korrekt generierte Header im CGI-Skript.
[Und den Rechner entsprechend betreiben, am besten auch noch mit
im Ausland gekaufter Tastatur]

CP852 kennt m.W. aber gewisse baltische Zeichen nicht (und auch
gewisse westeuropaeische nicht) und ist daher hoechstens "stimmiger"
als OSTWEST


>                       Als Alternative bleibt Unicode (bzw. für diesen
> Zweck UTF-8), aber dafür wäre zunächst zu prüfen, ob die Klientel
> Browser benutzt, die diesen Standard unterstützen.

Netscape ab Version 4.x, Microsoft ditto. Unter Windows 3.11 gibt
es evtl. leichte Probleme mit der Anzeige, wenn Sie einen Netscape-
Browser benutzen. D.h. fuer die Zeichen (lat. Grundbuchstaben), 
ueber die wir hier reden, ist jedes Betriebssystem nach 1995 und
jeder Browser nach 1997 o.k.
Die Bemerkung mit UTF-8 ist falsch, fuer "diesen Zweck" sollte
man bewusst nicht UTF-8 als Dokumentcodierung nehmen, sondern 
explizite HTML-Codierungen &#nnn; der Unicode-Positionen.

UTF-8 *muss* man nehmen, wenn man auch osteuropaeische Zeichen
einzugeben wuenscht, und dazu bereit ist, die im Deutschen
Bibliothekswesen merkwuerdigerweise beliebten Browser NS 4.x
nicht zu benutzen.

Sie koennen unter folgender URL einmal mit verschiedenen Browsern
und Dokumentencodierungen experimentieren:

http://www.gymel.com/cgi-bin/i18ntest.pl


> Meines Erachtens sollte einmal wieder allgemein über Unicode und Allegro
> nachgedacht werden - der OSTWEST-Zeichensatz war ja auch immer eher eine
> Notlösung als ein Optimum.

Es sollte staendig darueber nachgedacht werden, alle naheliegenden
Loesungen (d.h. die eingebaute Funktionalitaet des Betriebssystems
zu nutzen) erfordern jedoch, dass die Systemvoraussetzungen als
"NT 4.0 SP6 oder besser" und/oder "IE 5 oder besser" definiert werden.
Das ist nicht unbillig, weil diese Produkte so alt sind, dass sie
schon laengst nicht mehr auf dem Markt sind (NT 4 von 1996, SP6
von Dezember 1999, IE 5 von Maerz 1999), trotzdem moechte ich
behaupten, dass diese Huerde fuer die meisten Allegro-Anwender 
viel zu hoch angesetzt ist.


viele Gruesse
Thomas Berger




Mehr Informationen über die Mailingliste Allegro