Re: zu: index-problem bei großen datenbanken (über 4 mill datensätze)

Bernhard Eversberg ev at buch.biblio.etc.tu-bs.de
Mo Sep 6 09:29:07 CEST 2004


On 5 Sep 04, at 21:22, Klaus Lehmann wrote:

> 
> die vielen ladefehler sind relativ normal, sie entstehen durch merkwürdige
> steuerzeichen, die in wenigen datensätzen verblieben sind (z.b. das pipe-zeichen);
> deshalb bildet er auch z.b. den INDEX64 ab. egal. 
Das pipe-Zeichen ist ja das Steuerzeichen für die Zuordnung zu einem der Register 
1 bis 11. Hinter dem pipe-Zeichen darf nur eine Ziffer oder aber : für Reg.10 
oder ; für Reg.11 stehen. Steht da was anderes, gibt's einen "Ladefehler" und der 
Schlüssel wird weggeworfen. 
In MAB-Daten hat dummerweise das pipe-Zeichen eine ganz andere Steuerfunktion: so 
etwas wie |p| vor einem Schlagwort bedeutet "Personenschlagwort".
Man muß also beim Umwandeln Sorge tragen, daß alle solchen Vorkommnisse aus den 
Daten herausgemerzt werden. 
Ihre Beispiele deuten darauf, daß dies nicht 100%ig gegeben ist.

Was Herr Wolf feststellte, kann ohne nähere Kenntnis der Indexparameter nicht 
beantwortet werden. Wenn die #98 nicht indexiert wird, kann es jedenfalls keinen 
Ärger damit geben.

Die Größe ist übrigens ganz sicher nicht das Problem: wir berichteten vor einer 
Weile unter der Überschrift "Zu neuen Gipfeln" über die Indexierung des Ex-VK mit 
15 Mio Datensätzen, wobei ein Index mit 180 Mio Schlüsseln und 1.7 GB Dateigröße 
entstand. Das Indexieren lief fehlerlos durch in 6.5 Stunden auf einem XP.

B.E.

Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg at tu-bs.de  




Mehr Informationen über die Mailingliste Allegro