Bloss eine Idee

Dierk Hoeppner d.hoeppner at tu-bs.de
Do Sep 28 11:57:48 CEST 2000


Hallo Herr Berger, Herr Henkel

natürlich sind in XML sehr gut Schachtelungen möglich, man 
bekommt aber Schwierigkeiten, wenn man andere Sichtweisen 
haben möchte. Z.B in meiner Subito-Datenbank sind im 
wesentlichen drei Typen von Datensätzen drin: Bestellungen, 
Rechnungen und Kundensätze. Den einen interessieren nur die 
Bestellungen als Einzelobjekte. Den anderen die Rechnungen. Da 
sind dann aber der oder die Bestellungen ein Teil der Rechnungen, 
müßten idealerweise also als Unterlement der Rechnungen 
gespeichert werden. Die Kundenadresse sind aber sowohl Teil der 
Rechnung als auch der Bestellung. Und da hätte ich schon ein 
Problem, diese Bezeiungen in XML darzustellen. Es sei denn man 
macht drei Datenbasen mit den einzelnen Satztypen, aber dann hat 
man wieder das Verknüpfungsproblem.
 
> wiederholbaren Feldern, Teilfeldern, wiederholbaren
> Teilfeldern und einem Zoo von Wiederholungszeichen
> (" ; ", " * ", "¶" etc. je nach Anwendung) von denen
> einem ganz schlecht wird, wenn man darueber nachdenkt,
> ob in einer Kategorie mit Unterfeldern jetzt die

Da wäre eine Straffung wirklich nicht schlecht. Auch würde ich mir 
manchmal im Standardschema wünschen, dass Folgezeichen 
wirklich Folgezeichen sind.

> und Gesamtzusammenhaenge zu entwickeln. Ausserdem kann
> man einzelne Records bearbeiten, ohne die ganze Datenbank
> als "Dokument" betrachten zu muessen.

Nach meinen Informationen, aber so tief stecke ich 
zugegebenermaßen auch nicht drin, wollen die gängigen Parser 
gerne ein Root-Element haben und darunter dann die einzelnen 
Elemente. Und das ziehen die sich immer komplett rein. Ich sehe da 
echte Schwierigkeiten bei einer Datenbank von mehreren 100.000 
Datensätzen.

> einen Link ein und hofft auf die Software, die eine
> geeignete Navigations- oder Nachlade/Zusammenanzeige-
> Funktionalitaet bereitzustellen hat.

Richtig. Das ist aber nach meinen Erfahrungen aus Gesprächen mit 
EDV-Fachleuten der Knackpunkt. Viele wissen selbst wohl noch 
nicht so richtig über XML-Bescheid, scheinen aber zu glauben, 
dass das Format die Probleme von alleine löst. Tut es aber nicht. 
Das Hauptproblem ist die Erstellung der Anwendung. Das ist mit 
allegro-Grunddaten genauso groß wie mit XML-Daten.

> Man hofft dabei immer auf den uebernaechsten Standard der
> Style-Sprachen. Am Rande waere es natuerlich nett, die
> Exportsprache von allegro ueber Bord zu werfen ,vorausgesetzt
> es gibt etwas allgemeingueltigeres, was dasselbe kann...

Ja, die Hoffnung bleibt, ist aber trügerisch meiner Meinung nach. 
Bibliographischen Daten sind einfach komplex.

> Im Rahmen von MALVINE (http://www.malvine.org/) wurde
> ein bibliothekarisches Datenformat als XML fast "neu" entwickelt. Fuer
> das Projekt gibt es dann Konversionsskripte, die HANS-Daten,
> SGML-Daten (TEI?), MARC-Daten etc. der verschiedenen Teilnehmer
> umwandeln. Es scheint (wie auch bei den Ueberlegungen zu RDF), dass

Schön, aber das Grundproblem bleibt trotzdem: Wenn ich mit 
meiner eigenen Datei komme, die XML-Daten enthält, und die 
keines der genannten Formate enthält sondern ein eigenes, kann 
keines der Scripte diese Daten korrekt in das Zeilformat wandeln. 
Da muss jemand ran, die Quellstruktur analysieren und eine 
Konversionsprogrammsc schreiben, in welcher Sprache auch 
immer. Das ist doch der Knackpunkt, nicht das Datenformat. Ob ich 
dem Programmiere nun sage, dass 20 ....\x00 das Titelfeld ist, oder 
<20></20> das Titelfeld ist völlig egal. Ich muss es ihm in jedem Fall 
sagen, weil er sonst nicht weiß, wohin mit dem Feldinhalt. Ein 
allgemeiner XML-Parser kann das auch nicht. (Ich könnte natürlich 
auch <verfasser> nehmen, aber ein Programmierer in Inden hätte 
auch wieder das Problem) Ich sehe bei dieser Problematik wirklich 
nicht den Vorteil von XML

Zu Herrn Henkel:

Sie schrieben: Aber das mit dem erhöhten
Platzbedarf einer solchen Datei eigentlich nicht. Es wird sicher 
mehr,
aber ich finde, nicht so dramatisch, wie Sie zu fürchten scheinen.

Also, ich weiß nicht. Der baC hat 1,85 Mio-Datensätze Jeder 
Datensatz hat im Schnitt 10 Kategorien. Er paßt jetzt gerade noch 
als lebende Datenbank auf eine CD. Wenn ich mal ganz einfach 
annehme dass der Datensatz in XML mit <record></record> 
beginnt und endet, sind es schon ~31MB mehr. Für eine Kategorie 
benötige ich zusätzlich 7 Zeichen, wenn sie ungefähr so aussähe: 
<20>...</20> Das sind nochmal ~129MB mehr. Als wenig empfinde 
ich das nicht. Auf einer Festplatte ist es wohl tragbar, Herrn Greins 
Projekt wäre schon lange nicht mehr mit einer CD erledigt.

Sie meinten, bei flachen Bäumen müßte man den Geschäftsgang 
überdenken. Nun ist es aber das Wesen einer Datenbank, dass sie 
nur aus einer langen Kette von prinzipiell gleichen Datensätzen 
besteht. Das ist nun extrem flach. Da beißt keine Maus den Faden 
ab. Es gab früher mal Datenbanken, die die Daten hierarchisch 
recht tief speicherten, die waren aber sehr unflexibel. Man ist da 
aus guten Gründen von abgegangen.

Zur Prüfung der Wohlgeformtheit und Gültigkeit durch die Parser, 
stimmt es für das erste, für das letztere nur bedingt. Das 
Hauptproblem bei bibliothekarischen Datensätzen ist die Besetzung 
der Felder mit den korrekten Inhalten. Unsere Institute liefern uns 
Daten, in denen enorm viel von N.N. geschrieben wurde, und der 
_persönliche_ Herausgeber schon mal die SPD sein kann. Diese 
inhaltliche Korrektheit kann kein XML-Parser überprüfen. (allegro 
auch nicht: "Der Spion, der mich liebte" in das Verfasserfeld 
eingetragen, wird klaglos akzeptiert. Ein XML-basiertes Programm 
würde es auch aktzeptieren. Nur finden tut man den Titel im 
Titelregister nicht mehr und damit ist der Titel sogut wie weg)

Das mit den Raw-Devices ist auch kein historisches Problem, 
sondern brandaktuell. Ich war früher auch anderer Meinung, bis ich 
vor ein paar Monaten in der iX eine interessante Zuschrift von einem 
echten Datenbankspezialisten gelesen habe. Der wartete mit 
etlichen Zahlen auf, die für Höchstperformante Datenbanken, wo es 
auf extrem großen Durchsatz ankommt, nur eine Lösung zulassen 
(auch heute noch): Raw-Devices und Mainframes mit 
Arbeitsspeicher ohne Ende und am liebsten noch mehr Prozessoren 
und MHz.


Es ist wirklich gut, dass sie dieses Thema aufgebracht haben, ich 
bin selbst in letzter Zeit am Herumprobieren mit XML, sehe aber 
immer noch nicht, dass es der Bringer ist.

Viele Grüße
Dierk Hoeppner
Universitaetsbibliothek
Pockelsstr. 13
D-38106 Braunschweig
Germany
Tel: +49-531-391-5066 Fax: -5836
E-Mail: d.hoeppner at tu-bs.de     




Mehr Informationen über die Mailingliste Allegro