Latin-7 und Latin-1 zugleich in acwww25

Allers Heinrich allers at goethe.de
Mo Apr 9 16:50:22 CEST 2001


######################################
Eine ziemliche Spezialangelegenheit,
also drum eher etwas für Spezialisten:
######################################


Mein Ziel ist, die Katalogisate griechischer Bücher unserer beiden
Bibliotheken in Griechenland, die bisher bei der Produktion unseres
WWW-Gesamtkataloges
http://buch.goethe.de/cgi-bin/acwww25/gk01.pl
ausgesteuert wurden, nun in diesen aufzunehmen. Das ist schon ein ganz gutes
Stück weit gelungen, exemplarisch jedenfalls:

Bisher gibt es erst 2 Testaufnahmen in diesem Katalog, die Sie finden, wenn
Sie nach Stichwort 'xxenon' suchen (2 Treffer). Wenn Sie bei Netscape (ich
benutze 4.7) den Zeichensatz auf einen der beiden griechischen Sätze
einstellen, sieht man hübsch im zweiten Wort des Titels die ersten vier
Buchstaben des griechischen Alphabets (Alpha, Beta, Gamma, Delta).

Interessant ist der Hintergrund: das als Prüfstein dienende zweite Wort des
Titels, bestehend aus der siebenstelligen Zeichenfolge
'the<alpha><beta><gamma><delta>' ist in dem Datensatz aus Thessaloniki so
abgelegt worden:

theαβγδ

also in korrekter UTF-8-Kodierung.

Bei dem Datensatz aus Athen bin ich bei der Kodierung aber etwas großzügiger
vorgegangen und habe - aus bestimmtem Grund, siehe unten - das Semikolon
jeweils wegfallen lassen:

ath&#945&#946&#947&#948


Erste Frage:

Warum werden auch bei dieser (inkorrekten) Kodierung (im Fall des Titels aus
Athen) die betreffenden griechischen Zeichen korrekt dargestellt?


Zweite Frage:

Wenn ich mir den Seitenquelltext für den Athener Titel genau ansehe, sehe
ich die fragliche Zeichenfolge dargestellt als 11-stellige Folge:

ath&#945<beta><gamma><delta>

- die griechichen Zeichen also im Klartext, und nicht in Kodierung. Wenn ich
mir das aber herunterlade als Datei und diese Datei untersuche, dann steht
dort wirklich

ath&#945&#946&#947&#948
 
Ich dachte immer, die analytischste und zuverlässigste Form, das in Urform
zu sehen, was der Navigator auf die Bildschirmoberfläche zaubert, das wäre
das Anschauen des Seitenquelltextes. Dem ist also nach dem beschriebenen
Fall nicht so - wodran kann man sich dann noch halten?

###

Es geht weiter: 

Ich möchte natürlich auch nach aus griechischen Zeichen bestehenden Wörtern
suchen können, z.B. nach den aus 4 Zeichen bestehden Wörtern 
ath<alpha><beta><gamma><delta>
und
the<alpha><beta><gamma><delta>

Wenn ich in das Suchfeld für das Stichwort 
entweder the&#945 oder athe&#945 eintrage,
dann finde ich jeden der beiden Titel.

Wenn ich aber in das Suchfeld für das Stichwort 
entweder theα oder atheα eintrage,
dann finde ich _keinen_ der beiden Titel. Zu erwarten ist das für den ja
"falsch" kodierten Titel aus Athen; aber:

Dritte Frage:

Warum finde ich mit der Suche nach theα nicht den Titel aus
Thessaloniki? Warum stellt sich das Semikolon dabei so quer.

(Bemerkung: Das Semikolon ist in i.apt mit

q ; ";"

berücksichtigt und wird in o.apt nicht angetastet).

###

Interessant ist weiterhin, daß ich zwar mit der Suche nach

ath&#945&#946

den Titel aus Athen finde, nicht aber mit

the&#945&#946

den aus Thessaloniki, letzteren auch nicht mit

theαβ

Das bildet den Grund, weswegen ich dabei bin, mich dazu zu entschließen,
nachher im Echtbetrieb der Datenbank in der saloppen Art zu verfahren, bei
der UTF-8-Kodierung das Semikolon einfach wegzulassen. Ich habe dafür keine
anderen Gründe als die in der praktischen Erprobung gewonnen Erfahrungen:


Vierte Frage:

Gibt es schwerwiegende Bedenken gegen dieses pragmatische Verfahren?

###

Nun will man natürlich nicht auf der Suche nach einem <alpha> stets &#945
eingeben wollen, sondern auf griechischen Zeichensatz umschalten und mit
einer Taste das <alph> ansprechen und auch im Sucheingabekästchen sehen
wollen. Das läßt sich auch mit einiger Kleinarbeit machen:

Wenn Sie nach Aufruf von 
http://buch.goethe.de/cgi-bin/acwww25/gk01.pl
umschalten auf die Sprache "Griechisch", so haben Sie, Aktivierung des
griechischen Zeichensatzes unter Netscape vorausgesetzt die ganze Oberfläche
in Griechisch, und wenn betriebssystemsseitig noch die Möglichkeit der
Umschaltung auf griechische Tastatureingaben und einrichten, lassen sich
Folgen griechischer Zeichen bei der Suche eingeben.

Sobald man weiß, daß unter diesen Bedingungen (von denen ich noch nicht
erprobt habe, wie invariant sie gegen Übergang auf andere Maschinen und auf
andere Betriebssysteme sind) in das Perl-Skript allegro.pl eine Ergänzung
einfügt, die genau dann, wenn die Benutzeroberflächensprache Griechisch ist,
aus der Eingabe von Zeichen des Kodes

E1 (hexadezimale Kodierung von <alpha>) &#945 macht und aus
E2 (hexadezimale Kodierung von <beta>) &#946 macht und aus
E3 (hexadezimale Kodierung von <gamma>) &#947 macht und aus
E4 (hexadezimale Kodierung von <delta>) &#948 macht,
usw.

dann ist man fertig (ich wage es nach den vielen Stunden, die ich bis dahin
gebraucht habe, kaum zu hoffen), in dem Sinne, daß man bei Suche z.B. nach
der 7-stelligen Zeichenfolge

ath<alpha><beta><gamma><delta>

nicht nur das Suchwort fein griechisch im Eingabekästchen sieht, sondern
auch den dahinterstehenden Titel findet (aber wie gesagt: nur bei
griechischsprachiger Oberfläche!).

###

Verzeihung für die Länge! Aber ich wollte dem, der sich die Zeit nimmt, eine
möglichst umfassende Information liefern, und mir damit die Chance geben,
Antworten auf meine Fragen zu bekommen.


Mit besten Grüßen:

Heinrich Allers

Goethe-Institut, Postfach 19 04 19, D-80604 München
Tel. ++89 / 15921 471; Telefax: ++89 / 15921 435
allers at goethe.de; http://home.t-online.de/home/allers
* Kulturen in Deutschland? Ja!
  Deutsche Leitkultur? Nein, Danke!
  http://www.goethe.de/z/30/ogf/leitkult.htm




Mehr Informationen über die Mailingliste Allegro