Latin-7 und Latin-1 zugleich in acwww25

Thomas Berger ThB at gymel.com
Mo Apr 9 17:41:13 CEST 2001


Lieber Herr Allers,

> ath&#945&#946&#947&#948
> 
> Erste Frage:
> 
> Warum werden auch bei dieser (inkorrekten) Kodierung (im Fall des Titels aus
> Athen) die betreffenden griechischen Zeichen korrekt dargestellt?

Ich weiss noch nicht einmal, ob es wirklich inkorrekt ist:
";" dient (oft, bei SGML, ...) nur zur Disambiguierung, wenn
also &#846 direkt hinter &#945 kommt, ist sowieso klar, dass
eine weitere Parameterentitaet kommt, damit ist die alte
implizit beendet.

Mein Netscape 3 zeigt mir aber als Quelltext ath&#945???
und theαβγδ, man sollte sich also 
wirklich nicht darauf verlassen, dass man ";" weglassen darf.


 
> Ich dachte immer, die analytischste und zuverlässigste Form, das in Urform
> zu sehen, was der Navigator auf die Bildschirmoberfläche zaubert, das wäre
> das Anschauen des Seitenquelltextes. Dem ist also nach dem beschriebenen
> Fall nicht so - wodran kann man sich dann noch halten?

mit einem selbstprogrammierten Client nachschauen.



> Dritte Frage:
> 
> Warum finde ich mit der Suche nach theα nicht den Titel aus
> Thessaloniki? Warum stellt sich das Semikolon dabei so quer.

Vermutlich weil Sie im avanti-Job nach

find TIT <Suchbegriff>

suchen und nicht nach

find TIT "<Suchbegriff>"

avanti haelt das Semikolon daher fuer den Trenner zwischen
zwei avanti-Kommandos.



> Das bildet den Grund, weswegen ich dabei bin, mich dazu zu entschließen,
> nachher im Echtbetrieb der Datenbank in der saloppen Art zu verfahren, bei
> der UTF-8-Kodierung das Semikolon einfach wegzulassen. Ich habe dafür keine
> anderen Gründe als die in der praktischen Erprobung gewonnen Erfahrungen:
> 
> Vierte Frage:
> 
> Gibt es schwerwiegende Bedenken gegen dieses pragmatische Verfahren?

Nein, solange Sie das nicht UTF-8-Kodierung nennen:
945 = 03b1 ist die Unicode (UTF-16 meinethalben) Codeposition des
"alpha".
UTF-8 ist eine Transformation in Bytes, im Beispiel "alpha" waere es
α <=> U+03B1 <=> +_ (206 177 = 0xce 0xb1 = 2 Bytes in UTF-8)

viele Gruesse
Thomas Berger




Mehr Informationen über die Mailingliste Allegro