F: Ersetzungen und Performance
Wolfgang Grein
wgrein at wgrein.de
Di Sep 7 10:07:05 CEST 1999
Liebe Kolleginnen und Kollegen,
der berliner allegroCatalog baC wird in seiner
naechsten Ausgabe 675 MB auf der CD-ROM belegen,
wird (und soll) weiter wachsen und erreicht damit
die fuer mich verarbeitbare Obergrenze von 700 MB.
Um ein weiteres Wachstum zu ermoeglichen wurden
bereits jetzt Redundanzen beseitigt:
- so werden die Schlagwortketten aufgeloest, die
einzelnen Schlagwoerter untereinander auf
Gleichheit geprueft und nur ungleiche
Schlagwoerter zugelassen.
- gleiches geschieht mit den Personen
- das Feld 39 (MAB359) = Verfasserangabe in
Vorlageform wurde als 'PI-Gedaechtnisfeld' voellig
beseitigt, da es fuer die Indizierung nicht
benutzt wird. [Sowas bringt 40 MB!!]
Das reicht aber alles nicht.
Derzeit ueberlege ich, die 250 meistgebrauchten
Woerter durch Stammsaetze zu ersetzen. (Das mag
nicht im Sinne der Normdatenverknuepfung sein ...)
Ein im Schnitt vielleicht 10-Zeichen langes Wort
wuerde auf 2 Zeichen (wenn man die ASCII-Zeichen
nimmt) reduziert. Von der Sorte hab ich ca.
jeweils 20.000 Stueck, in der Summe also ca. 50
MB, die ich durch ca 10 MB ersetzen koennte (+
Stammsaetze).
Das klingt natuerlich sehr gut. [Und macht die
Tuer weit auf...]
Meine Frage ist jetzt: wie wirken sich die
Ersetzungen auf die Performance aus? Theoretisch
ist es ja denkbar, 10, 20, 30 Ersetzungen in einem
Satz zu haben, die alle 'richtig' dargestellt
werden muessen.
Hat jemand bisher damit Erfahrungen gemacht?
Kann man zu beschriebenen Verfahren greifen?
Oder hat jemand eine clevere Idee, die
physikalische Grenze des Speicherplatzes auf einer
CD-ROM zu durchbrechen. [DVD scheidet derzeit noch
aus.]
Mit freundlichen Gruessen
Wolfgang Grein
Stadtbibliothek Wilmersdorf von Berlin
Brandenburgische Straße 2
10713 Berlin
Tel: 030 - 86413948
Fax: 030 - 86413455
email: wgrein at ba-wilm.verwalt-berlin.de
(dienstlich)
wgrein at wgrein.de (privat)
Mehr Informationen über die Mailingliste Allegro