F: Mehr als 500 Schl"ussel
Dierk Hoeppner
HO at buch.biblio.etc.tu-bs.de
Mi Nov 20 13:16:59 CET 1996
Herr Berger schrieb:
> Bernhard Eversberg wrote:
>
> > Und noch eine Frage: Kennt wer ein System, das mehr als 500
> > Schluessel je Datensatz zulaesst? Wenn ja, hm, dann werden wir uns
> > wohl bequemen muessen, hier was zu tun.
>
> "Kennen" nicht, aber wie machen das die Volltextdatenbanken
> (und auch die Web-Suchmaschinen)?
Nur ein paar Bemerkungen, um mal ein paar Anhaltspunkte zu bekommen: Zur
Zeit stellen wir unser gesamtes WWW-Angebot um und polieren es etwas auf.
(Sehen kann man es noch nicht) Unter anderem wird man dann mal alle
Dokumente durchsuchen koennen. Fuer die Indexierung der Volltexte haben wir
das System Harvest (http://harvest.cs.colorado.edu) eingesetzt, da das
Rechenzentrum der TU es auch benutzt. (Man kann damit einen Superindex
einrichten, wenn mehrere Harvestdatenbanken gekoppelt werden) Soweit die
Vorrede. Wir haben ca. 300 Dokumente unterschiedlicher Laenge. Sehr lang
sind die allegro-news. Komplett neu indexieren benoetigt ca. 4h (ja,
Stunden!) auf unserer zugegeben nicht sehr schnellen Sun. Ein Update-
Indexieren neuer oder geaenderter Dokumente geht schneller, aber es werden
dabei nur die neuen Schluessel mit aufgenommen. Alte, ungueltige werden
nicht eliminiert. Das Gesamtdatenbank der TU ist sehr viel groesser. Unser
Rechenzentrum macht Update-Indexlaeufe nur Sonntags ab 03.00 Uhr auf
wesentlich schnelleren Maschinen. die benoetigen aber immer noch ca. einen
halben Tag. Und dann hat man eine Datenbank, in der man auch Hinweise auf
Dokumente findet, die veraltet sind, oder gar nicht mehr existieren!
Das ganze kann man natuerlich beschleunigen. Altavista hat fuer solche
Vorgaenge aber einige der schnellsten DEC-Rechner, die es gibt zur
Verfuegung, und die machen nur diese eine Arbeit und nichts anderes. Und
mehrere teilen sich die Aufgabe. Jedes Wort zu indexieren, kostet nun mal
Zeit, selbst wenn es schnelle Rechner gibt.
Viele Gruesse
Dierk Hoeppner
Universitaetsbibliothek
Pockelsstr. 13
D-38106 Braunschweig
Germany
Tel: +49-531-391-5066 Fax: -5836
E-Mail: d.hoeppner at tu-bs.de
Mehr Informationen über die Mailingliste Allegro