Wer braucht denn Web-Kataloge?

Bernhard Eversberg EV at buch.biblio.etc.tu-bs.de
Sa Apr 1 11:21:40 CEST 2000


AltaVista als Zentralkatalog!

Die vor Jahren mal kursierende Idee, das Internet zu katalogisieren, ist
ja nun mega-out. Die Suchmaschinen sind so maechtig geworden, dass kaum
noch Fragen offen bleiben, jedenfalls ist das frueher so gefuerchtete
Null-Treffer-Problem hoechst selten geworden. Um es nochmal zu erleben, 
muss man sich schon ganz neue Woerter ausdenken. "alcarta" war mal so 
eins, aber jetzt auch schon nicht mehr.
Ueber Bord mit verstaubten Ideen, Kurskorrektur um 180 Grad! Geben wir
ihnen Futter, den Suchmaschinen, und lassen wir sie unsere Bestaende
indexieren. Zaghafte Anfaenge gibt's ja schon: wenn man fuer 
E-Dissertationen Metadaten bereitstellt, oder sog. "Frontdoor"-Dateien
fuer E-Ressourcen aller Art, dann geschieht das ja gerade mit dem Zweck,
dass die Welt diese Dinge finden kann - und zwar ueber die Suchmaschinen,
wie denn sonst?

Wir wollen doch alle, dass die Welt unsere ausgesuchten Bestaende zur 
Kenntnis nimmt! Das Aufsetzen einer "avanti"-Datenbank ist aber nun wirklich 
kein Sonntagsspaziergang, von Z39.50 gar nicht zu reden,  und selbst wenn 
man sowas macht, muss man ja das Publikum immer noch anlocken. Weit besser 
ist doch, umgekehrt, alles so aufzubereiten, dass die Suchmaschinen, die ja 
periodisch einen Gatherer, Spider, Harvester oder Grabbler vorbeischicken, 
unsere Katalogisate mundgerecht vorfinden und dann indexieren! Dann koennte
man sich zuruecklehnen: 
Altavista oder das neuere FAST (www.alltheweb.com) benutzt ja jeder, daher 
wird dann auch jeder unsere Buecher zwanglos auf diese beliebte Weise 
finden. Dann heisst es nur noch: 
"Web-Katalog? Schauen Sie bei AltaVista nach, da sind unsere Bücher alle 
drin! DAS ist unser Katalog!" Und wenn alle mitmachen, ist es DER 
Zentralkatalog.

Und so wird's gemacht
Keine Suchmaschine kann den Inhalt einer "allegro"-Datenbank indexieren, 
so wie sie ist. Das koennen wir ihnen nicht beibringen, aber das ist auch 
gar nicht noetig!
Was man tun muss, ist nur dieses:

1. Ein Verzeichnis ABC auf dem Web-Server einrichten, und anmelden bei den
   fuehrenden Suchmaschinen

2. Jeden Datensatz, den man eingibt, als XML-Datei auf dieses Verzeichnis
   exportieren

Mit "RuckZuck" ist das hoechst einfach: man ergaenzt in der Datei
WRITE.FLX nur diese 6 Zeilen, gleich unter dem Befehl "put":

xport p xml
var "ABC\\" #00 ".htm"
xport f
write Fhead.htm
download 
write Ffoot.htm

Dann wird ein XML-Metadatensatz als eigene Datei auf das Verzeichnis ABC
geschrieben.  (ABC ist z.B.  F:\XITAMI\WEBPAGES\OPAC )

Nochmal ganz langsam zum Mitdenken:

   Parameter xml.apr laden
xport p xml
   den Namen der Ausgabedatei zusammensetzen:
     (das ist z.B.  F:\XITAMI\WEBPAGES\PUBLIC\ze00561.htm
       wenn "ze00561"  in der #00 des Satzes steht)
var "F:\\XITAMI\\WEBPAGES\\OPAC\\" #00 ".htm"
   Diesen Namen als neue Exportdatei nehmen:
   (er steht in der iV, und wenn hinter "xport f" nichts steht, wird der
    Inhalt der internen Variablen als Name genommen!)
xport f 
   Und jetzt den Satz ausgeben, eingebettet zwischen head.htm und foot.htm:
write Fhead.htm
download 
write Ffoot.htm

Was hat man erreicht? Direkt nach dem Speichern des Satzes in die
Datenbank wird eine XML-Datei produziert, die dann von allen Suchmaschinen
ausgewertet werden kann. Wenn z.B. unser Datensatz so aussieht:

#00 ab01234
#20 Fermats letzter Satz
#40 Singh, Simon
#74 Muenchen
#75 Deutscher Taschenbuch Verlag
#76 1997
#77 364 S.
#90 Ma-9876

viel zu kryptisch und verwirrend also fuer die normale Suchmaschine,
dann entsteht daraus mit Hilfe von XML.APR, wobei mit den international 
populaeren Dublin-Core Bezeichnungen operiert wird: 
(improvisiert und stark gekuerzt, nur um das Prinzip zu zeigen)


<?xml version="1.0" encoding="ISO-8859-1"?>
<rdf:RDF
      xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
      xmlns:dc="http://purl.org/dc/elements/1.0/"
      xmlns:dcq="http://purl.org/dc/qualifiers/1.0/">
<rdf:Description 
 rdf:about="http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/
WD-dc-rdf/">
<dc:title>
 <rdf:Alt>
  <rdf:li xml:lang="de">Fermats letzter Satz</rdf:li> 
  <rdf:li xml:lang="en">Fermat's last theorem</rdf:li>
 </rdf:Alt>
</dc:title>
<dc:creator>
<rdf:Bag>
<rdf:li>Singh, Simon</rdf:li>
</rdf:Bag>
</dc:creator>

<dc:publisher>                                                           
   <rdf:dc:Publisher.Name>Deutscher Taschenbuch Verlag 
   </rdf:dc:Publisher.Name>
   <rdf:dc:Publisher.Place>Muenchen</xml:DC.Publisher.Place>                 
</dc:publisher>                                                         
... usw. usf.   


Das macht doch was her, nicht wahr? So muessen heute Daten aussehen.

Und der Pflegeaufwand? Gleich Null! Denn die XML-Datei wird bei jedem
Speichern, z.B. nach einer Korrektur, automatisch ueberschrieben - wenn der 
Inhalt der #00 nicht veraendert wird, denn dann ergibt sich ja derselbe
Dateiname. Eingebettet in den Metadatensatz kann man ferner einen Link
bereitstellen, der einen RuckZuck- oder avanti-Aufruf enthaelt und die
IdNummer, so dass dann der Finder sofort direkt zu unserem eigentlichen
Katalog durchklicken und z.B. das Dokument bestellen kann!!
Noch besser: fuer Katalogisierer kann man einen weiteren Link bereitstellen,
der von RuckZuck oder avanti eine MAB2-Version des Datensatzes anfordert,
oder MARC oder was auch immer, vielleicht sogar das konsolidierte Format.
Oder man bettet die MAB2-Daten gleich mit in die Metadaten ein, unsichtbar
im Header, aber mit "Ansicht / Seitenquelltext" sofort aufzublaettern, und 
mit Cut-and-Paste, schwupp, ins eigene Eingabefeld von a99 kopieren,
so einfach ist dann die Fremddatenuebernahme.

Das Ergebnis ist: unser Bestand integriert sich nahtlos in das Internet
und wird genau da gefunden, wo sowieso jeder zuerst guckt, eben in den 
fuehrenden Suchmaschinen. Funktionen der Benutzung und des Datenaustausches 
lassen sich noch beliebig verbessern, wenn man den Metadatensatz 
entsprechend weiter anreichert.

Und nebenbei loest sich noch ein anderes Problem:
Vor Jahresfrist hatten wir schon festgestellt: "allegro" bleibt weit
zurueck hinter mancher anderen Software, was die Fuellung der enormen 
Plattenraeume geht, die heute schon in die billigsten PCs von Aldi 
eingebaut sind. Allerhand Ideen draengten sich dann wohl auf, 
aber geschehen ist, zugegeben, noch nichts. 
Jetzt aber spielt uns der Zeitgeist in die Haende, und mit wenig Aufwand
koennen wir ruckzuck ganz ordentlich was wegschaffen von den Gigabytes,
den kosmisch weiten Leerraeumen, wie sie nun datenhungrig rastlos
rotieren, von chronisch unterbeschaeftigten Prozessoren nur sporadisch
mit winzigen Haeppchen abgespeist. XML hat ja den Vorteil, noch mehr Platz 
zu brauchen als HTML! Auf einmal liegen wir damit voll im Trend, im 
Mainstream, und sind Global Players.

In diesem Sinne, einen schoenen Monatsbeginn! B.E.

Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de  




Mehr Informationen über die Mailingliste Allegro