Zeichen >127 bei acwww25 (in Anzeige und Kurztitelzeile)

Thomas Fischer fischer at mail.sub.uni-goettingen.de
Mo Mär 26 11:53:45 CEST 2001


Lieber Herr Allers,

die Kodierung-Lösung finde ich sehr gelungen - im Detail gibt es vielleicht
noch Probleme, weil verschieden Browser verschiedene Zeichen darstellen
können, evt. noch in Abhängigkeit vom Betriebssystem. Das ist ein weites
Feld...

1.
Ich möchte vorschlagen, der Datei noch die Information zur Kodierung
hinzuzufügen.
Das ist einerseits die Header-Information (die ich hier nicht sehe, der
Server antwortet derzeit nicht):
Content-Type: text/html; charset=UTF-8
ersetzt die übliche Zeile
Content-Type: text/html

Zweitens kann diese Information als Metatag im <Head>-Bereich des
HTML-Dokumentes stehen:
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">

Ein Browser, der  HTML 4.01 unterstützt (das behaupten alle ...) sollte
diese Information auswerten, so daß auf seiten des Benutzers kein
Umschalten nötig ist.

Da ich gerade vorschlage, das Dokument zu ändern würde ich noch einen
Eintrag
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/REC-html40/loose.dtd">
vor dem <HEAD>-Tag empfehlen, damit der Browser weiß, woran er ist (und
zumindest das Dokument den HTML 4.01-Spezifikationen gehorcht).

2.
Die Sortierung von Avanti erfolgt nach Abschnitten in der Kurztitelzeile.
Wenn die Sortierung nach Kurztitel also wegen Sonderzeichen nicht die
richtige ist, gibt es zwei Möglichkeiten:
- entweder die Sonderzeichen für die Kurztitelliste so umzudefinieren, daß
die Reihenfolge richtig wird. Dann sind diese Kurztitel aber für die
Anzeige nicht mehr recht zu gebrauchen und man müßte in der Entsprechenden
Anzeige sich statt dessen die echten Titel aus dem Datensatz holen, das
kostet aber Zeit.
- oder einen zusätzlichen Sortierabschnitt im hinteren Teil der Kurzanzeige
anzulegen, der dann zur Sortierung herangezogen werden soll. Die
"Kurztitel" können mittlerweile ja recht lang werden (obwohl ich nach
unübersichtlichen Problemen, die mittlerweile vielleicht behoben sind, vor
anderthalb Jahren wieder auf 72 Zeichen zurückgegangen bin).

Mit freundlichen Grüßen,
Thomas Fischer

Dr. Thomas Fischer
Projekte SSG-FI (http://www.sub.uni-goettingen.de/ssgfi/)
und VLIB (http://www.sub.uni-goettingen.de/vlib/)
Niedersächsische Staats- und Universitätsbibliothek
Historisches Gebäude
Papendiek 14
D-37073 Göttingen
Germany
Tel.: (+49) 0551-39-3883
----- Original Message -----
From: "Allers Heinrich" <allers at goethe.de>
To: "Diskussionsliste Allegro-C" <allegro at buch.biblio.etc.tu-bs.de>
Sent: Friday, March 23, 2001 6:19 PM
Subject: Zeichen >127 bei acwww25 (in Anzeige und Kurztitelzeile)


Liebe acwww25-Kenner:


    zugegebenermaßen hatte ich bisher die Frage der Darstellung in Anzeige
und Kurztitelzeile der Zeichen des Ostwest-Fonts mit Codierung >127
angesichts anderer Arbeit, die das Bereitstellen von Allegro-Datenbanken
macht, vollkommen vernachlässigt.

Kürzlich machte ich mich an dieses liegengebliebene Thema heran, und es
artete doch in ziemliche Arbeit aus.- Wie haben das die von gleichem
Zeichenanfall (Zeichen außerhalb von Latin-1) getroffenen Kollegen
eigentlich gelöst? Ich frage, weil ich Sorge habe, das Rad womöglich noch
einmal, und noch dazu in mieserer Ausführung, erfunden zu haben, und daß
ich
da gut etwas hätte übernehmen können.

Die Realisierung von ausgefallenen Zeichen in der Anzeige unter Netscape
ist
dabei noch das einfachste: Nehmen wir mal als Beispiel das S mit dem Komma
drunter (das S cedille), Codierung in Unicode hexadezimal 015E und dezimal
350.

Übrigens: In diesem Dschungel von seltenen Zeichen sich zurechtzufinden,
dabei halfen mir in entscheidender Weise einerseits die Datenbank UNIC -
Unicode Reference Database of Character Encodings -, die 1997 von B.
Eversberg zur Verfügung gestellt wurde, und andererseits ein von D. Lahmann
mir überlassenes Dateigefüge, das eine Tabelle der Unicode-Zeichen mitsamt
ihrer Codierung und ihrer graphischen Darstellung enthält.

Mit der in die Anzeigeparameterdatei (oder in die in sie eingebundene
Umschlüsselungsdatei) eingefügten Zeile

p .208 "Ş"

(bei der von uns benutzten Variante des Ostwest-Fonts liegt das "S cedille"
auf dem Code 208) bewirkt die korrekte Darstellung dieses Zeichens in der
Anzeige - wobei allerdings (unter Netscape) die Umschaltung auf Zeichensatz
"Unicode (UTF-8)" die Voraussetzung bildet.

Aber gerade diese Voraussetzung zieht für denjenigen, der in der
WWW-Präsentation seiner Datenbank nicht konsequent Umlaute und weitere
Sonderzeichen im Stile von "ä" (für a-Umlaut) einzugeben
durchgehalten,
sondern sich vom gerade benutzten html-Editor dazu hat verleiten lassen,
einfach ein 'ä' (a-Umlaut) einzutippen, umfangreiche Nacharbeiten mit sich!
(Das Gleiche gilt für den, der bei Allegro-Parametrierungen entsprechend
verfahren ist).

Schwieriger war es, dafür zu sorgen, daß auch in den Kurztitelzeilen die
"Sonderzeichen" richtig herauskamen. Bis D. Höppner mich darauf hinwies,
hatte ich nicht gewußt, daß sich diese Angelegenheit im Unterprogramm
anz_prep von acwww25.pl befindet. Aber auch wenn man dort eingreift, bleibt
es noch verwickelt: Die dort untergebrachten Umsetzungen von
Zeichencodierungen in html-Code dürfen nicht etwa von dem ASCII-Code
ausgehen, den das jeweilige Zeichen ursprünglich in der Datenbank hat,
sondern müssen von dem ANSI-Code ausgehen, den es in o.apt zugewiesen
bekommt. Am Ende eigentlich ganz einfach und irgendwie logisch, aber ich
bin
auch nur durch Hinweis von D. Höppner drauf gekommen.

Einen Ausschnitt aus dem Ergebnis meiner Bemühungen (die ich am Ende als
erfolgreich ansehe) ist hier zu sehen:

http://buch.goethe.de/cgi-bin/acwww25/liteax.pl?s1=gs+litedida&db=lite

und zwar in der Zeile unter "Hunfeld, ...: Literatur als Sprachlehre": Wenn
man sich die Sache unter Einstellung auf Zeichensatz "Unicode (UTF-8)"
anschaut, sieht man schön das "S cedille" als erstes Zeichen des folgenden
Kurztiteleintrages.

Aber was ich noch nicht geschafft habe, ist, dafür zu sorgen, daß dieser
Kurztitel dort auftaucht, wo er der alphabetischen Ordnung nach hingehört,
nämlich unter den Eintrag "Semper, Lothar: ...".

Das ist die große Frage und Bitte, mit der ich diese - als
Erfahrungsbericht
hoffentlich nicht zu lang geratene - Nachricht schließe: Kann mir jemand zu
diesem Problem Hinweise geben? Mir würde ja auch reichen, wenn mir jemand
die Mechanismen und Agenten nennt, die dafür sorgen, daß diese
Kurztiteleinträge - von Ausreißern dieser Art abgesehen - ganz schön
sortiert rauskommen. Ich weiß, der avanti-w-Befehl "order" spielt da 'ne
Rolle, aber i.apt kann schon nicht mehr mitspielen (denn wenn es das täte,
wäre mein mit dem "S cedille" beginnender Kurztitel an der richtigen Stelle
gelandet) - der Rest ist mir vollkommen schleierhaft.


Mit freundlichen Grüßen:

Heinrich Allers

Goethe-Institut, Postfach 19 04 19, D-80604 München
Tel. ++89 / 15921 471; Telefax: ++89 / 15921 435
allers at goethe.de; http://home.t-online.de/home/allers
* Kulturen in Deutschland? Ja!
  Deutsche Leitkultur? Nein, Danke!
  http://www.goethe.de/z/30/ogf/leitkult.htm





Mehr Informationen über die Mailingliste Allegro