[Allegro] Umcodierung der Indexsuche (avanti)

Thomas Berger ThB at Gymel.com
Do Nov 16 09:27:52 CET 2006


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Lieber Herr Fischer,


> Der eigentliche UTF-8-Uebeltaeter ist uebrigens ein neueres APACHE mit einem
> AddDefaultCharset UTF-8
> in der HTTPD.CONF.

Ich bin mir nicht ganz sicher, ob diese Setzung ueberhaupt auf
CGI-Skripte durchschlaegt, eher schon der Accept-Charset Header.
Ueber Meta-Tags bzw. vorzugsweise eigene Header kann ein Script das aber
stets gut beeinflussen


> Dadurch werden alle gesendeten Seiten, also auch die an AVANTI gesendeten
> JOBTEXTe UTF-8-codiert.

gewiss nicht. Lt. HTTP-1.1-Standard *muessen* alle Browser Umlaute
UTF-codiert senden. Das tun sie im allgemeinen aus Kompatibilitaets-
gruenden nicht, erst Internet-Explorer 5 z.B. brachte die benoetigten
Austauschkomponenten mit, damit auch Win'9x beschraenkte Unicode-
Funktionalitaet bekam. Der IE hat daher eine Konfigurationsoption
"always send URLs as UTF-8", die standardmaessig ausgeschaltet ist.

Richtig hingegen ist, dass das CGI-Skript nicht irgendwelche
Zeichenketten entgegennehmen und an Avanti schicken sollte,
die ganze Anwendung muss sicherstellen, dass die Art der Codierung
im Zusammenspiel Avanti - CGI-Skript - Browser des Benutzers und
zurueck kontrolliert bleibt. Weil Avanti in den Jobs (vgl. die
Mails des anderen Herrn Fischer und von Herrn Eversberg) je nach
Ausformulierung entweder UTF-8 (mit set U), oder allegro-Windows
(default) oder allegro-Ostwest (mit switch coding) erwartet, muss das
CGI-Skript dafuer sorgen, dass das was hereinkommt auf den in den
Jobs eingestellten Zeichensatz konvertiert wird.


> Das mag die ACWWW25-Schnittstelle nicht (aber nicht nur das nicht).

Die ACWWW25-Schnittstelle ist bekanntlich seit etwa 9 Jahren mausetot.



> Jetzt habe ich doch noch eine Faulheitsfrage (meine letzte nach einer
> D-HTML.APR besserer Funtionalitaet habe ich mir dann selbst beantworten
> duerfen) nach dem Wunsch, diese komischen doppelten \hex-Sequenzen von UTF-8
> korelliert mit allem anderen Quatsch mal als irgendwie formatierte Liste zu
> erhalten.

UTF-8-codierte Zeichen kommen als irgendwas zwischen 1 und 5 Bytes.
Der von Ihnen zitierte Hack von Herrn Fischer setzt 2-Byte-Sequenzen
um, avanti (und a99) bekommen mit den U-Deklarationen aus v23 mit
3-Byte-Sequenzen klar, der Rest geht verschuett.


> Also, Frage an alle, die sich auskennen:
> 
> Hat Eine(r) eine Konkordanz _aller_ gebraeuchlichen o.g. Kodierungen der
> Sonderzeichen, am liebsten in ASCII.

http://www.unicode.org/

viele Gruesse
Thomas Berger

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.3-nr1 (Windows XP)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org

iD8DBQFFXCEIhKFJT0F1FsoRAs1yAJ9JesEBNDr8Iyq3S4xUR/iATh0svwCff0rO
qzkRW+D7qIadecg91iTzpv8=
=PbuT
-----END PGP SIGNATURE-----



Mehr Informationen über die Mailingliste Allegro