Re: Aufbau großer Datenbanken
Sibylle Koczian
Sibylle.Koczian at bibliothek.uni-augsburg.de
Di Jan 14 16:08:04 CET 2003
Lieber Herr Berger,
At 15:21 14.01.03 +0100, you wrote:
>das ist der "second run" index -fa, der "verewigt" sich
>durch einen Datummsstempel an der Datei protok und evtl.
>ein bis zwei zusaetzlichen Zeilen dortselbst:
>
>7 relations expanded
>299 not expanded
D.h. dann muesste eigentlich protok einen spaeteren Zeitstempel haben als
protoq? Hat es nicht. Aber, wie gesagt, es gibt in Wirklichkeit gar keine
Stammsaetze. Wahrscheinlich waere es gar nicht dumm, i5 auszukommentieren.
>
> > > > Die Groesse der bei Index entstehenden Zwischendateien richtet sich
> nach
> > > > dem verfuegbaren Arbeitsspeicher und ist nicht einstellbar, habe
> ich das
> > > > richtig verstanden?
> > >
> > >Ja. Sind diese aber sehr klein, waere das schlimm. Ca. 70-80kB sollten
> > >sie normalerweise haben.
> >
> > Wenn ich die Groesse der .adx-Datei durch die Anzahl der ii-Dateien teile
> > (aus protok), dann sieht es aus, als seien sie tatsaechlich kleiner gewesen
> > (55 kB). Aber stimmt diese Rechnung?
>
>Nein. Aber immerhin waren sie >= 55kB, was eher beruhigend ist.
??? Wenn meine Rechnung nicht stimmt, dann wissen wir das doch gar nicht?
Oder gibt die Division grundsaetzlich einen Wert, der jedenfalls nicht
groesser ist als die wirkliche Groesse der ii-Dateien?
.adx-Datei: 322.630 kB
Anzahl ii-Dateien lt. protok: 5802.
>D.h. Sie benutzen globale Manipulation beim UPDATE,
>um die bereits indexierten Titelsaetze um die Lokalinformationen
>zu ergaenzen? Und die Lokalinformation kommt ggfls. aus mehreren(!),
>bereits umgewandelten und in der .alg-Datei vorhandenen
>Lokalsaetzen und kumuliert?
Keine globale Manipulation, sondern -fm41. Ansonsten genau so.
>Folgende Moeglichkeiten fallen mir ein:
>- Saetze werden zu gross beim kumulieren bzw. erzeugen
> irgendwann zuviele Schluessel
> (Testweise, falls moeglich: Datenbank mit - at 1 aufbauen,
> dann update, dann neuindexieren mit - at 1 und - at 2:
> ist a) viel viel schneller und b) kracht es dann evtl.
> erst bei der zweiten Indexierung, da haette man dann
> etwas bewiesen)
Den Versuch werde ich auf jeden Fall machen, so bald ich die Rohdaten habe.
Und wg. a) diese Variante in das neue Aufbau-Skript schreiben, das ich z.Z.
verfasse.
>- Anwendervariable der Globalen Manipulation sind in
> Konflikt mit denen aus der .api
>- Unsauberkeiten in der globalen Manipulation / .api fuehren
> zu nicht geloeschten Anwendervariablen, die sich zu einem
> Speicherproblem aufschaukeln.
Das kann's m.E. eigentlich nicht sein. Titel- und Lokaldaten kommen in
getrennten Dateien an (beides MAB2), werden getrennt importiert und
duerften nach dem Import nach bestem Wissen und Gewissen nur ordentliche
Kategorien enthalten, keine Anwendervariablen. Wenn dann Index und Update
starten, dann koennen doch Anwendervariablen aus den Importparametern keine
Rolle mehr spielen? Bezueglich Unsauberkeiten in der .api kann ich
natuerlich keine heiligen Eide schwoeren. Ich glaube nicht, dass ich selber
welche hineingebracht habe; beim Schlagwortketten-Register habe ich bei
Ihnen abgekupfert, habe das aber wenigstens so einigermassen verstanden.
Aber ansonsten bleiben mir die Standardparameter ewige Raetsel.
Gibt es einen besseren Weg als Index + Update? Dass ein von mir
geschriebenes Perl-Skript, das die Lokaldaten vor dem Import in die
Titeldaten einmischt, etwas anderes tun koennte als die ganze Aktion viel
schlimmer zu bremsen als Update es tut, nebst wahrscheinlich zusaetzlichen
Fehlern und Unsicherheiten, scheint mir mehr als unwahrscheinlich.
(Allenfalls wenn ich ganz sicher sein koennte, dass die Lokalsaetze nach
der ID-Nr. des zugehoerigen Titelsatzes geordnet kommen - dann vielleicht.)
Ueber separate Lokalsaetze haben die Redaktion und ich gemeinsam am Anfang
nachgedacht, insgesamt schienen die Nachteile groesser als die Vorteile.
Vielen Dank und beste Gruesse, Koczian
Dr. Sibylle Koczian
Universitaetsbibliothek , Abt. Naturwiss.
D-86135 Augsburg
Tel.: (0821) 598-2400, Fax : (0821) 598-2410
e-mail : Sibylle.Koczian at Bibliothek.Uni-Augsburg.DE
Mehr Informationen über die Mailingliste Allegro