[Allegro] neues aus der allegro-Werkstatt bezüglich vufind

Michael Lackhoff michael at lackhoff.de
Sa Apr 3 11:21:48 CEST 2021


Am 02.04.2021 um 16:51 schrieb Klaus Lehmann:

> misslungen ist folgendes
> ========================
> ich war naiv und wollte einen vufindkatalog auf basis der DNB-daten erstellen. für interne zwecke. 25 Mill. datensätze....

Wieso naiv? Ich mache das für meine Kunden seit Jahren.

> warum das ganze? ganz einfach: die DNB ist nicht in der lage, oder will in der lage sein, online mark-daten zur verfügung zu stellen. nur so einen dreck wie marcxml, turtlemocksoup, jasonunddieargonauten ;-( gibt es.

MARCXML *ist* MARC21, das es eben in verschiedenen praktisch
gleichwertigen Repräsentationen gibt. Wenn man doch einmal eine andere
Repräsentation braucht, sollte die Wandlung mittels frei verfügbarer
Tools trivial sein.

Ich selbst halte MARCXML für die "beste" Repräsentation des Formats, da
es fast alle Vorteile vereint:
- maschinenlesbar
- menschenlesbar (nach kurzer Eingewöhnung)
- keine Längenbegrenzung (s. Ihre Mail neulich zum Thema)
- verlustfrei
Einziger Nachteil: braucht etwas mehr Platz, was aber in Zeiten von
18TB-Platten und 8TB-SSDs nicht mehr wirklich ins Gewicht fällt.

> tja. also dann machen wir uns einen DNB-katalog selber! 

Sollte kein Problem sein.

> nix da: 2-3 tage vergebliche arbeit. 

Verstehe ich nicht. Ich habe es nach Ihrer Mail mal eben mit den
aktuellen Versionen von Vufind und der Daten ausprobiert (mein
Produktiv-System hat noch ein etwas älteres Vufind).

Vufind runterladen, auspacken, ein paar kleine Anpassungen: 15-30 Min.
Aktuelle DNB-Daten runterladen (hatte ich schon): ca. 15 Min.
Einspielen: gut 3 Stunden.

> die DNB stellt ja die mrc-dateien (offline) zur verfügung. los gehts. man bekommt so 4 blöcke a 5 Mill. datensätze.
> der 1. block wurde relativ gut in vufind eingeflegt (hat ca 1 std gedauert), aber dann bei einpflegen des 2. blockes kamen ne menge fehlermeldungen, beim dritten block noch mehr fehler, tja und beim 4 block ist er abgestürzt. obwohl der cache-speicher für java auf 4GB erhöht wurde; vorher war er auf 1 GB. seufz. war ne gute idee. ich kapiers nicht, das wird nicht der letzt versuch gewesen sein ;-)

Es gibt mit der Standard-Konfiguration eine ganze Menge Warnungen, wenn
Autoren nicht in den dafür definierten Feldern gefunden werden, läßt
sich durch kleine Änderungen bei der Indexierung sicher leicht beheben
oder ignorieren, wenn es wirklich keine Autoren gibt.

Speicher habe ich bei mir etwas großzügiger spendiert: 16GB für Solr und
je 8GB für jeden import-marc Prozeß. Damit hatte ich keinerlei Probleme,
die Daten einzuspielen (auch parallel jeweils zwei Dateien gleichzeitig).

> wenn mir JETZT jemand mit dem k10plus kommt...
> tja. aber man kann sich da auf nischt verlassen. es ist ein gesamtkatalog. sie haben keine eigene redaktion, die die daten "säubert". logisch: wie soll das gehen?
> also versuche ich mich auf die DNB zu verlassen! denn die haben die daten (als erste) erzeugt. iss det naiv? aber an wen sollen wir dann glauben? ;-) ich glaube an RAK! ;-)

Ich überlasse das in der Fremddatenübernahme-Anwendung, die ich den von
mir betreuten Bibliotheken zur Verfügung stelle den Anwendern.
Da ich nicht nur DNB, sondern Daten aus vielen weiteren Quellen (auch
ZDB, insgesamt gut 80 Millionen Sätze) einspiele, biete ich alle Sätze
zur Übernahme an und die Anwendung ist so gestrickt, daß man sehr leicht
auch Inhalte aus meheren Sätzen/Quellen mischen und bei Bedarf auch
eigene Korrekturen vornehmen kann.
Bisher ist die Zufriedenheit sehr groß :-)

> !nicht! misslungen ist folgendes
> ================================
> der ZDB-katalog aus mrc-dateien mit ca 2 Mill. datensätzen.
> hat ne halbe stunden gedauert, steht als marc-katalog internen zwecken zur verfügung. 
> info: es braucht ihn keiner via google zu suchen. diese aussage sollte lange lange zeit gelten.

Wo ist der Vorteil gegenüber https://zdb-katalog.de ? Datenübernahme?
Dafür finde ich wie gesagt einen umfassenden Pool für alle Daten
praktischer. Über Filter kann man ja sehr leicht bei Bedarf auf eine
Quelle einschränken.

Viele Grüße
Michael Lackhoff


Mehr Informationen über die Mailingliste Allegro