[Allegro] Darüber sollte man nachdenken: wenn man exportiert: heute die allegro-Datenqualität: oberwichtig hierbei: die #00

Klaus Lehmann lehmann_klaus at t-online.de
Mi Mai 10 22:22:39 CEST 2023


[warum ist der lehmann so geschwätzig? ich habe derzeit zeit. viel wartezeit. meine letzte geschichte, an der ich ca 2 1/2 jahre gearbeitet habe, ist zu ende. es gilt nur noch ein paar "kontroll-"exporte zu erledigen. und dann sind "sie" glücklich in ihrer KOHA-bitation.
ups: bei google ist DAS ja zu finden: 
Ko·ha·bi·ta·ti·on. /Kohabitatión/
Substantiv, feminin [die]
    1.     bildungssprachlich    Geschlechtsverkehr
    2.     (in Frankreich) Zusammenarbeit des Staatspräsidenten mit einer Regierung einer anderen politischen Richtung
also ich steh' auf die bedeutung 2. .... plauder, plauder... (KOHA ist mist!)
übrigens: in keinem zusammenhang, aber ich vergesse es einfach nicht mehr! "marc".... der amerik. Schriftsteller Mark Twain. das ist ein pseudonym. er ist an diesem riesenfluss aufgewachsen, die mit den riesigen schaufelraddampfern... . und dort war die bedeutung von dem Ruf "mark twain" sowas wie "messe die tiefe zweimal nach" für die flussschiffahrer.... oder ähnlich. habe jetzt keinen bock auf google..]



Guten Tag allerseits,
[ich hole mal etwas aus...] es wird heutzutage viel exportiert.
als ich mit dem thema anfing, vor ca 7 jahren, da akzeptierte der KOBV kein mab2-format. ich solle marken. tja, na und? iss doch einfach. da jibbet von BS eine exportdatei, und los!
der KOBV schickte mir kalt lächelnd ein grinsen mit den worten: "auf ein neues lehmännchen! 1/2 jahr haste zeit! wir wollen die daten dann (sauber) im marc-format". 

autsch. 
die originale marctxt.apr aus BS hatte (erstmal) keine schuld. die war schon OK. [nicht ganz verständlich, viel zu viel überflüssiger allegro-slang mit ersetzungen usw usw. egal erstmal]
es konnte nur die allegro-datensätze sein. damals gab es noch antworten seitens des KOBV (heute nicht mehr. die beiden extrem guten kolleginnen sind inne rente abjedriftet und keiner hilft dem lehmännchen mehr).
hm.
naja, es hat dann schon ein halbes jahr gedauert, bis ich einen vom KOBV akzeptierten Export fertig hatte.

und HIER machen wir einen "break" und denken über allegro-C nach.
was bedeutet das? die "allegro-qualität". das thema soll -für mich- auch sein: die datenqualität, die strukturen, die konkordanz zu marc und vieles mehr.
so nach 7 jahren kann man schon sagen, was war denn da das wichtigste "Kapitel" in der Betrachtung. Auf was muss der Exporteur achten? (auf vieles, klar!). aber was zuerst?
[ahnt es jemand schon?]

nochwas: ich habe bestimmt so an die 50 marc-exporte angestossen. und habe dabei gelernt: es kein "marc". es gibt viele marc"dialekte"!. vor allem in der unterscheidung: wer will denn nun die punctuation? 
wer will sie nicht. die us-anglikaner wollen sie. die deutschen nicht. argh! 
ich habe derzeit und für alle zeiten 10 unterschiedliche exportdateien für marctxt.apr. dabei ist noch nicht mal worldcat als ABvariante dabei, WC wollte noch keiner. ich ahne es, da wird es richtig fies. ich sehe immer diese kleinen andeuter in der offiziellen marctxt.apr aus BS. 
die datei aus BS ist vom 8.2.2023 und 24.5683 bytes "klein". meine sind tagesaktuell, und von 190.839 bis 194.715 bytes. also fast 10fach so groß. meine marctxt.apr ist "nur" ein teil des exportvorganges. das script, was alles erledigt, ist derzeit 6.759.754 bytes schwer. noch 2 zahlen: meine exportdatei und das script schaffen ein "mehr" an 30% inhalt. und eine hochwissenschaftliche datenbank (die da ganz oben erwähnt wurde!) mit 200.000 datensätzen braucht ca 6 1/2 std, bis der export fertig ist. im script rundherum der exportdatei sind derzeit 14.684 (globale) such- und ersetzungsvorgänge. die werkzeuge dafür (die info ist für die open surze-fans, die nie aufgeben, was umsonst zu bekommen) sind eben nicht open surze. sie haben geld gekostet, sind vom entwickler auf meine aufgaben angepasst wurde. sie kommen perl etwas nahe (s.a. ThB!). wohl das wichtigste ist: sie können sehr, sehr große dateien "optisch" editieren! [sowie BRIEF früher. kennt jemand noch BRIEF? es gibt ein paar (indische wohl) die das "neue" brief anbieten. VORSICHT! heisst Crisp! bei der letzten version von vor 2-5 jahren habe ich $200 für ein update verloren. immerhin meine letzte version für notfälle ist 64bit! also nur zum schluss zu meinen tools: das skript muss auch einzelne dateien bis zu 100GB schaffen. ich habe damit (sehr, sehr) allegro-datenbank (und vufind klar auch) geschafft: ZDB, DNB und die IMDB
leider ein wichtiges thema: ZDB und DNB! die zeiten sind vorbei: man, was waren wir glücklich, man ging auf die DNB oder die ZDB, konnte die ansicht auf mark umändern und anschauen: veni vidi vice. downloadete sich den datensatz. und war glücklich. hach, wie konnte ich schnell mal vergleichen! wenn in der großen wissenschaftlichen Bibliotheksdatenbank die mark-Korrektheit nicht eindeutig war. die DNB und ZDB haben ja mit ihrer qualität nicht/nie gelogen. sie ist immergut. DAS war mal! niente. aus und vorbei. was aktuell die ZDB darstellt, weiss ich nicht. es ist murks. ich kann nicht vergleichen! ich muss es aber tun! die DNB genau so. es sei wohl ein xml-export möglich. wer xml liest, ist selber schuld! sorry.
wissen sie übrigens, wo sie immer noch eine mark-ansicht der fremddaten haben? im K10PLUS! echt!

[die auflösung jetzt:]
!die IDENTnummer in #00!
wenn die nicht sauber ist, dann kannste den datensatz vergessen! den findet kein vufind mehr!
wie ich oben erwähnt habe, gehen meine meisten exporte in vufinds. ich exportiere in alles: mrc, mrk und xml.
[komm' zur sache, lehmännchen!]
warum ist den nun die #00 sooo wichtig?
ganz einfach: die #00 bildet in vufind einen teil des Links im Browser! wem das nicht klar ist, ist verloren. Die #00 hat nämlich sprengkraft!

beispiel: http://xxx.server.net/zyx/Record/b63096+4+10+1+1#details
der katalog ist nicht offiziell. 
aber ich darf mal zitieren. geniessen SIE es einfach. sowas haben sie vermutlich noch nie gesehen:

im kopf der TA in vufind sieht das so aus:
D. Martin Luthers Werke / [Abt. 1-4] [Abt. 4] D. Martin Luthers Werke / [Abt. 4:] Schriften 4,10 Teil 1: [Frühe Schriften und reformatorische Hauptschriften:] 10. Band 4,10,1 Teil 1: [Frühe Schriften und reformatorische Hauptschriften:] 10. Band. 1. Abteilung 4,10,1,1 Teil 1: [Frühe Schriften und reformatorische Hauptschriften:] 10. Band. 1. Abteilung. 1. Hälfte: [Weihnachtspostille 1522]
das da oben ist der inhalt von =245 (dem HST!)

in marc sieht es so aus:
245     0       0       |a D. Martin Luthers Werke / [Abt. 1-4]  |n [Abt. 4]  |p D. Martin Luthers Werke / [Abt. 4:] Schriften  |n 4,10  |p Teil 1: [Frühe Schriften und reformatorische Hauptschriften:] 10. Band  |n 4,10,1  |p Teil 1: [Frühe Schriften und reformatorische Hauptschriften:] 10. Band. 1. Abteilung  |n 4,10,1,1  |p Teil 1: [Frühe Schriften und reformatorische Hauptschriften:] 10. Band. 1. Abteilung. 1. Hälfte: [Weihnachtspostille 1522]  
[bitte finde keiner einen fehler, wir alle haben lange dafür gearbeitet ;-)]
001     b63096+4+10+1+1
in allegro sieht es so aus: #00 b63096+4+10+1+1=4,10,1,1

wenn ich zur übergeordneten TA gehe, sehe ich, daß wir das in http://xxx.server.net/zyx/Record/b63096 haben:
den vermerk, daß es 132 bände sind. und das man sie alle anklicksen kann. einfach nur geil (sorry) [ist übrigens ein Riesling!=GEIL heisst der winzer. fürchterlicher name][kein witz]
allegro musste überredet werden, da mitzuspielen! nein, falsch lehmännchen! allegro hat das alles schon incl. bzw. drinne!
WIR mussten lernen, die doku RICHTIG zu lesen. man sie gebundene Docu S.311. (anh.B erfassung eines 2 bändigen bandes)
egal: 2bändig ist auch OK, in einer hierarchieebene (genauer in zweien!). da stehts! lesen sie die Doku! da stehts, wie's gemacht wird!

hach, ich lese das handbuch nun schon bestimmt seit 30 jahren. nein, ich habe es nicht erkannt! doch es steht da! lehmann: lies doch!
lesen sie mal. tip: konzentrieren Sie sich auf das 3. beipsiel ;-)
[ich habe ein halbes bis ganzes jahr für integration von mehrbändern mit bis zu 4 hierarchien (eigentlich 5h's) gebraucht! es löpt alles hervorragend. noch hat niemand einen fehler gefunden...]


katze raus aus dem sack. 
knüppel in den sack:

was darf in der #00 stehen? vor (k)einem =
===================================
eine kombi von inhalten mit +
"                                      mit + und =
ziffern, buchstaben (zur einfachheit empfehle !ich! was kleines vom alephbet)
nur engl./amerik buchstaben!(ziffern+buchstaben)
nur diese 4(!!!!!!!!) sonderzeichen sind erlaubt: 
erlaubte sozeichen also: bindestrich,punkt,unterstrich,tilde vor dem=

das folgende habe ich mir irgendwann mal kopiert aus Inet. (leider wurde die quelle vergessen):
     Weitere Zeichen haben spezifische Bedeutungen im Dokumentenpfad. Folgende Zeichen gelten als reserviert:
     : / ? # [ ] @ ! $ % & ' ( ) * + , ; =   '
     Folgende Zeichen sind nicht reserviert, besitzen also in einer URL keine vorgegebene Bedeutung:
     Buchstaben: A–Z, a–z   Ziffern: 0–9   - . _ ~

die sozeichen sich zu merken, die nicht sein dürfen, ist viel zu kompliziert!
ich merke mir den umkehrschluss. 
ganz einfach: a-z, 0-9, und binde, punkt, unter und die tante ma(thilde) sind erlaubt. NUR 4 stück!



was darf nicht drin stehen? vor (k)einem =
==================================
keine kombi mit = alleine (das + fehlt!)
ÄÜÖ, äöü, ß
LEERZEICHEN.
ABSOLUT verboten!!!! 
wer eines einbaut, muss das magazin aufräumen, bekommt nur süsse Kola (15% zucker!) aus Angola und veggi-Burger. 1 jahr lang!
ein leerzeichen, sofort nach dem =. 
generell: VOR dem = NIE ein leer. 
sofort danach nach dem = kein leer. danach egal!


aaahjach:
========
wat machen wir denn mit doppelten idennummern? tja, der erste titel gewinnt. es kann sein, daß der zweite titgel irgendwie/irgendwo gesehen wird, aber man kann ihn nicht bespringen! mit einer URL.....
falls noch nicht erwähnt:
böse:              #00 a123456789+
auch böse:     #00 a087654321=
ebenso böse: #00 a001798 =blabla 
ebenso böse: #00 a001799= blabla 
genauso böse: #00 a001797 = blabla  (viele kollegen schreibe das SO, weil es wohlgeordnet aussieht. tja. 6=setzen!
schauen SIE sich das o.g. handbuch an. herr eversberg hat "eigentlich" ganz genau vorgeschrieben, wie die sachen in #00 zu schreiben sind. es hat nur keiner genau gelesen. allegro hat alles solches durchgehen lassen. aber jetzt ist allegro nicht alleine! wir wollen mit unseren daten raus in die weite welt. vufind wartet! RDA/marc/vufind lachen sich sowas von scheckig, wenn es diese qualität sieht und wählen -wenn sie gute laune haben- aus: rein ins töpfchen, ab in die mülltonne.
und wenn sie schlechtelaune haben, wie oben erwähnt der KOBV, dann sperren sie komplett den zugang in die weilte welt und wir sollen uns erst mal hinter den ohren putzen. schnief!
allegro war jahrzehntelang soooo geduldig mit uns. hat uns fast jeden schraipfähla verziehen.... ;-)







hier die tretmine: zu IHRER Übung
============================
#00 a0123456+6. Band für den §129 mit der %-Grenze=Sechster Band mit dem Generalthema von Alice Schwarzer $129 und der Kirchenpräsidentin, die die %-Grenze überschlug
ich sehe 10 stück (alle vor dem = !)
wat nach dem = kommt, ist die "hübsche 00"

[und nebenbei, JETZT nicht wichtig: es gibt auch eine" nicht hübsche 00". das ist eben eine #00 die hat zwar plus-zeichen ohne ende, keine LEERS. aber sie hat keine abteilung, die mit einem = anfängt (später dürfen übrgens noch viele = kommen. ist unwichtig! es dient nur dem hübschen "aussehen"]

also ist dieser buchtitel, wenn ihn vufind sucht (mit der hauseigenen solr-datenbank)
#00 a0123456+6. band für den §129 mit der %-Grenze nicht aufrufbar in einem LINK
auch so nicht: #00 a0123456+6.bandfürden§129mitder%-Grenze
https://server.de/zyx/Record/a0123456+6.bandfürden§129mitder%-Grenze
§ ist megaböse!
% ist ebenso mega böse
vermutlich dass ü auch



ich habe ja gerade zeit....
=====================
mein neuer auftrag ist gerade 6 std durchgelaufen. nein, einen marc-export habe ich noch nicht!
aber ich weiss, da baut sich was -irgendwie funktionierendes- zusammen.
habe in einer indexprotokolldatei gesehen, daß es 170 nicht funktionierende "relations" gibt. autsch, daß wird schlimm, diese zu finden, im nornalen allegro. suchen sie mal was, was es nicht gibt! das sollen die kollegen mal machen. es sind ja ihre daten. sie haben die daten gemacht! [DAS ist ein problem: ich soll daten reparieren! hm. aber ich habe sie nicht "gemacht"! ich habe das gefühl nicht "für" die daten. ich "kenne" sie nicht. merken SIE was?
morgen weiss ich mehr.
aber knapp 400.000 datensätze sind wesentlich mehr als die oben genannten 200.000 datensätze. und für die 200.000 stück habe ich 2 1/2 jahre benötigt.
werde ich 4 Jahre dran sitzen? 
tja, kinners! IHR wollt ja raus aus allegro! wollt IHR nicht lieber drin bleiben? ;-)

ach, ist das süüüüsss! NUR 232 NICHT aufgelöste titel von Sammelbänden in Artikeln. ist das wenig! [mein export ist wirklich gut, selbstlob stinkt! aber ich habe 7 Jahre dafür geackert]
ächm: wir haben 159.622 aufgelöste solcher titel! das sind also 4 promille, die problematisch sind! ok: die kollegen waren gut! also doch NICHT mein export! ;-)

so: jetzt wird der mark-export, der aus allegro kam! (sie erinnern sich! der, den ich NICHT aus der hand gebe!), auseinander genommen. Unlogeleien, die die apr (auch wenn sie von mir ist, hach: dann ganz besonders!) nicht geschafft hat, klar und deutlich zueinanderzubringen. also: das allegro-format 2016 und RDA/marc sind nicht gerade FREUNDE! ganz im gegenteil.
nicht zu vergessen: mein export bringt ein mehr von 30% im vergleich zu dem aus BS.

nebenbei: (das betrifft die übergroße freundschaft aus dem sandkasten von allegro versus RDA/marc)
ich habe mal eine konkordanz zu den fussigen Noten geschrieben. 
hier nur eine kleine zusammenfassung: (sie ist früh entstanden: 12/2019)
1. 12 diese fussnoten werden in allegro angeboten, sind aber in marc NICHT unterbringbar
2. 5x lokale Eigenheiten: gilt nur fuer ZYX fussnoten sind korrekt besetzt, dann zu oben oder zu =59X zuordnen! 
3. 35x diese fussnoten werden in marc angeboten! aber aus allegro NICHT beliefert
4. 22x Funktionierende Konkordanz! Diese Fussnoten werden 1:1 uebersetzt und sind in marc untergekommen! Statistisch also nur jede DRITTE! ;-(
welch zufall: nicht opensurze ;-)

dieser export, der bei mir in der allegroWerkstatt gerade seit 6 stunden durchläuft, braucht ca 4-5 std noch für den echten mark-export. nur ne schätzung.
das wichtigste ist für mich: daß er ohne KNALL bis zum ende kommt. und das in der mrk-datei nur anständige sachen drin stehen.
keine KOHAbitation der 1. erklärung (s.o.)

die nebentitel sind auch ein extrakapitel für sich..... allegro #41-#59 ;-(((((  nicht gut, nicht gut.
aber wir wollen ja in der nächsten leer(ächm: lehr)stunde ein warnendes auge auf RDA werfen.


[das ekelhafte thema mit der #09 besprechen wir nicht! jedenfalls NICHT heute!]
[#09 ist kontraproduktiv!][mehr sage ich nicht! ;-( ]





viele grüße, ihr klaus lehmann


und im übrigen: 
=============
jeder allegro-bibliothek, die mir ihre daten schickt, stelle ich einen vufind-katalog kostenlos für sagen wir mal 4 wochen zur verfügung.
auf einem server nach dem muster: http://server.net/zyx
dieses ist eine google-unfreundliche adresse. sie ist nix für die ewigkeit.
auf meinen offiziellen servern findet google jedes(!) buch. dieses kann auf wunsch unterbunden werden, das muss jede bibliothek für sich selbst entscheiden.

ich habe auch eine serveradresse zu laufen, die nur mit passswort zu erreichen ist. hier sind nicht gerade "öffentlich geeignete" dokumente zu finden. es ist ein riesen dokumentenschatz mit (ehemaligen sql-) 120.000 datensätzen.
hier sind auch dokumente, die die speichergrenze von 99999 bytes bei marc erreichen. alle sind inhaltlich indexiert.



ps: ich denke, mein nächsten thema wird RDA sein: warum ist die Vergabe von RDA-Inhalte so wichtig?

ps2: und schon wieder ist die email open surze, da freuen sich sicherlich alle ;-)

ps3: nein, meine skripts und marctxt.apr's sind es nicht! 7 jahre für umme? nope!

ps4: habe mal nachgezählt. hier sind 210 zeilen vor mir in den letzten 2-3 std. getippt worden. und das für umme!
wie hat kennedy es ausgedrückt: frage nicht, was dein allegro oder vufind für dich tun kann. frage, was kannst du für allegro oder vufind tun. ist das ENDLICH angekommen?

-- 
Mit freundlichen Grüßen,
Ihr Klaus Lehmann
http://allegronet.de * eMail: allegronet at t-online.de * 
phone: 03528-452 807(fax 809) * mobil: 0171-953 7843 *
allegronet.de * Klaus Lehmann * D-01454 Radeberg * Bahnhofstr. 1 *
zuständiges Finanzamt: FA Hoyerswerda; zuständige Kammer: IHK Dresden *
zuständige Aufsichtsbehörde: Gewerbeamt Radeberg; USt-IdNr: DE247550760 *
* Software für zufriedene Bibliothekare: 1000x bewaehrt und ergiebig
* Internetkataloge & WebHosting für Allegro-C & Web 2.0 mit VuFind
* 2011-22: Sponsor: Peter-Sodann-Bibliothek
* 2013-14: Bolero 32bit.+allegro-zdb: endlich. + eBooks
* 2015-16: allegro-imd. Die weltgrößte(?) Filmdatenbank
* 2017-23: Exporte. Marc und Co. Marc ist sehr different
* 2019-23: All for VuFind! The perfect export into marc21
* 2020-22: kohanet.de. Alternativen zu allegro-C und allegronet.de
* 2023: Aktuell auf vufindnet.de 28 Online-Kataloge. Auch Ihrer?



Mehr Informationen über die Mailingliste Allegro