[Allegro] B3KAT jetzt als allegro-Datenbank

Bernhard Eversberg ev at biblio.tu-bs.de
Fr Jan 6 11:19:34 CET 2012


Am 02.01.2012 13:03, schrieb Bernhard Eversberg:
 > Am 28.12.2011 19:31, schrieb Heinrich Allers:
 >
 >> gestern las ich in INETBIB:
 >>
 >>> die Bayerische Staatsbibliothek, der Bibliotheksverbund Bayern und
 >>> der Kooperative Bibliotheksverbund Berlin-Brandenburg haben ihren
 >>> Katalog  B3Kat  als OpenData im Format MARC-XML <
 >>> http://www.bib-bvb.de/open-data.html > und als LinkedOpenData im
 >>> Format RDF/XML < http://lod.b3kat.de/download/ > veröffentlicht.
 >
 >>> Enthalten sind die Beschreibungen zu über 23 Millionen Medien aus
 >>> 180 wissenschaftlichen Bibliotheken ...
 >
 > Entweder kann man sich die 23 Mio. Daten (ca. 70GB in 30 XML-Dateien mit
 > je ca. 800.000 Sätzen) herunterladen und damit etwas anzustellen
 > versuchen. ...

OK, wir haben das mal gemacht, denn als Massentest kam uns das gerade 
recht. Der Rekord (VK) stand ja immer noch bei 15 Mio., jetzt sinds 24
(bescheiden hatte man in der Presse nur 22 verlautbart)

Fakten und Zahlen:

1. Umwandlung in Parallelverarbeitung:
    Ausgangsmaterial: 51 GB MARC-XML-Daten, aufgeteilt auf 39 Dateien
    Hierzu wurden bis zu 10 a99-Fenster geöffnet und jedes mit einem
    FLEX gestartet, der eine der 25 Dateien umzuwandeln hatte.
    (Also nicht mit import.exe und Import-Parametern!)
    So ging das deutlich schneller als alles sequentiell hintereinander.
    Incl. Erstellung des FLEX und einiger Tests dauerte das 1.5 Tage
    unter Win'7/32; z.B. 7 Dateien gleichzeitig ca. 70 Min.
    Gesamtvolumen: 24.161.866 Sätze.

2. Indexierung mit einer etwas abgespeckten cat.api, aber MultiX:
    Erzeugung von vier Indexdateien, weil eine einzelne zu groß würde
    (In einem Durchlauf, weil ohne V14-Ersetzungen)
    Das dauerte:
      Indexphase       (106 Min., ca. 4.5 Min. je Million)
      Qrixphase        (4 Runden à ...)
    Zwischendateien:  6.508
    Indexeintraege: 699.016.829
    .ALD-Dateien mit je 256MB (Aufbohrfaktor 16): 22 + eine mit 12.8 MB
       = 5.6 GB
    .ADX : ~2 GB     PER, TIT, VOJ, KET, NUM, ISN, ISB
    .EDX : ~2 GB     ALL   Alle Wörter
    .FDX : 692 MB    TAF   Titelanfänge
    .GDX :  31 MB    URL   URLs der Digitalisate
    .VDX : 132 MB    VLG   Verlage
    .STL : 1.739 GB
    .RES : 144 MB    PYR (JJJJ) und TYP (bu=Buch, on=Online)
    .TBL :  96 MB
    Gesamt-Dateivolumen:   12.6 GB

3. Bereitstellung unter a30:
    Mit Einbau eines Link vom Datensatz zum BVB
    Das dauerte fuer die Einrichtung ca. 20 Min.


Etliche der XML-Dateien waren etwas größer als 2GB, das bereitete
ein Zusatzproblem bei der Umwandlung

Man könnte etwas mehr rausholen aus den Daten, aber Perfektion war
nicht angesagt. Der Inhalt der MARC-XML-Sätze kann jedenfalls auch
noch nicht als optimal gelten. Mangels erschöpfender Dokumentation
war erst einmal zu analysieren, was es rauszuholen gab.
(Allein dazu wäre auch noch viel zu sagen ...)

Nun kann man halt erstmal schauen:
    http://www.allegro-c.de/db/a30/bvb.htm

B.E.




Mehr Informationen über die Mailingliste Allegro