Re: Aufbau großer Datenbanken

Sibylle Koczian Sibylle.Koczian at bibliothek.uni-augsburg.de
Di Jan 14 16:08:04 CET 2003


Lieber Herr Berger,

At 15:21 14.01.03 +0100, you wrote:
>das ist der "second run" index -fa, der "verewigt" sich
>durch einen Datummsstempel an der Datei protok und evtl.
>ein bis zwei zusaetzlichen Zeilen dortselbst:
>
>7 relations expanded
>299 not expanded

D.h. dann muesste eigentlich protok einen spaeteren Zeitstempel haben als 
protoq? Hat es nicht. Aber, wie gesagt, es gibt in Wirklichkeit gar keine 
Stammsaetze. Wahrscheinlich waere es gar nicht dumm, i5 auszukommentieren.

>
> > > > Die Groesse der bei Index entstehenden Zwischendateien richtet sich 
> nach
> > > > dem verfuegbaren Arbeitsspeicher und ist nicht einstellbar, habe 
> ich das
> > > > richtig verstanden?
> > >
> > >Ja. Sind diese aber sehr klein, waere das schlimm. Ca. 70-80kB sollten
> > >sie normalerweise haben.
> >
> > Wenn ich die Groesse der .adx-Datei durch die Anzahl der ii-Dateien teile
> > (aus protok), dann sieht es aus, als seien sie tatsaechlich kleiner gewesen
> > (55 kB). Aber stimmt diese Rechnung?
>
>Nein. Aber immerhin waren sie >= 55kB, was eher beruhigend ist.

??? Wenn meine Rechnung nicht stimmt, dann wissen wir das doch gar nicht? 
Oder gibt die Division grundsaetzlich einen Wert, der jedenfalls nicht 
groesser ist als die wirkliche Groesse der ii-Dateien?

.adx-Datei: 322.630 kB
Anzahl ii-Dateien lt. protok: 5802.


>D.h. Sie benutzen globale Manipulation beim UPDATE,
>um die bereits indexierten Titelsaetze um die Lokalinformationen
>zu ergaenzen? Und die Lokalinformation kommt ggfls. aus mehreren(!),
>bereits umgewandelten und in der .alg-Datei vorhandenen
>Lokalsaetzen und kumuliert?

Keine globale Manipulation, sondern -fm41. Ansonsten genau so.

>Folgende Moeglichkeiten fallen mir ein:
>- Saetze werden zu gross beim kumulieren bzw. erzeugen
>   irgendwann zuviele Schluessel
>   (Testweise, falls moeglich: Datenbank mit - at 1 aufbauen,
>   dann update, dann neuindexieren mit - at 1 und - at 2:
>   ist a) viel viel schneller und b) kracht es dann evtl.
>   erst bei der zweiten Indexierung, da haette man dann
>   etwas bewiesen)

Den Versuch werde ich auf jeden Fall machen, so bald ich die Rohdaten habe. 
Und wg. a) diese Variante in das neue Aufbau-Skript schreiben, das ich z.Z. 
verfasse.

>- Anwendervariable der Globalen Manipulation sind in
>   Konflikt mit denen aus der .api
>- Unsauberkeiten in der globalen Manipulation / .api fuehren
>   zu nicht geloeschten Anwendervariablen, die sich zu einem
>   Speicherproblem aufschaukeln.

Das kann's m.E. eigentlich nicht sein. Titel- und Lokaldaten kommen in 
getrennten Dateien an (beides MAB2), werden getrennt importiert und 
duerften nach dem Import nach bestem Wissen und Gewissen nur ordentliche 
Kategorien enthalten, keine Anwendervariablen. Wenn dann Index und Update 
starten, dann koennen doch Anwendervariablen aus den Importparametern keine 
Rolle mehr spielen? Bezueglich Unsauberkeiten in der .api kann ich 
natuerlich keine heiligen Eide schwoeren. Ich glaube nicht, dass ich selber 
welche hineingebracht habe; beim Schlagwortketten-Register habe ich bei 
Ihnen abgekupfert, habe das aber wenigstens so einigermassen verstanden. 
Aber ansonsten bleiben mir die Standardparameter ewige Raetsel.

Gibt es einen besseren Weg als Index + Update? Dass ein von mir 
geschriebenes Perl-Skript, das die Lokaldaten vor dem Import in die 
Titeldaten einmischt, etwas anderes tun koennte als die ganze Aktion viel 
schlimmer zu bremsen als Update es tut, nebst wahrscheinlich zusaetzlichen 
Fehlern und Unsicherheiten, scheint mir mehr als unwahrscheinlich. 
(Allenfalls wenn ich ganz sicher sein koennte, dass die Lokalsaetze nach 
der ID-Nr. des zugehoerigen Titelsatzes geordnet kommen - dann vielleicht.)

Ueber separate Lokalsaetze haben die Redaktion und ich gemeinsam am Anfang 
nachgedacht, insgesamt schienen die Nachteile groesser als die Vorteile.

Vielen Dank und beste Gruesse, Koczian


Dr. Sibylle Koczian
Universitaetsbibliothek , Abt. Naturwiss.
D-86135 Augsburg

Tel.: (0821) 598-2400, Fax : (0821) 598-2410
e-mail : Sibylle.Koczian at Bibliothek.Uni-Augsburg.DE





Mehr Informationen über die Mailingliste Allegro