[Allegro] fehler in d-wrtf.apr?

Klaus Lehmann lehmann_klaus at t-online.de
Mi Jul 16 11:27:11 CEST 2014


 
Guten Tag Herr Berger,
danke für Ihre Nachricht.
Am Mittwoch, 16. Juli 2014 um 10:28 schrieben Sie.
Ihre Nachricht finden Sie am Ende dieser eMail.

> Lieber Herr Lehmann,
>> einwurf: (kopfball?)
ich habe langsam keine zeit. allegromäßig ist sehr viel zu tun ;-)
die neue version habe ich immer noch nicht in meine distri. eingearbeitet.... ;-(


>> wenn ich weiss, daß unicode vorkommt:, in den para's,
>> dann muss ich eben totales unicode schreiben. dann darf ich mir nicht 
>> \031 fürs subfield erlauben.....

> Wieso? Auch in Unicode-codierten MAB- oder MARC21-Daten ist
> das Unterfeldzeichen das Zeichen 31.
ja... ? das ist doch schlimm! das ist murks!


jajaja. ich will und werde \031 dafür schreiben ;-)
in allegro.... ;-)


> Allerdings ist dort das Zeichen ein reines Steuerzeichen,
> d.h. die Gleichsetzung "Steuerzeichen ASCII 31" <-> "Dreieck
> mit der Spitze nach unten" gilt nicht mehr. Insofern kann
> man das Zeichen auch nicht unbedingt mit einem Editor notieren
> und muss einen von mehreren Wegen gehen:

> * Escapen als \31
ja. genau so schreiben. (ich schreibe aber \031 ;-)



> * Umschreiben als "$" (aber was ist mit "$")
das ist ja (leider) großer murks. ein dollar ist immer noch geld.
(für mich sage ich das:) ich darf das dollarzeichen NUR dann 
verwenden, wenn es nirgendwo, in daten UND para's NICHT vorkommt.

ein doller ist eine ersetzung für ein nichtdarstellbares zeichen. das 
ist MURKS! obwohl ich einigermassen froh übe den murks bin... ;-)



einwurf/kopfball/ecke/eigentor/ich_bin_ein_tor!!!: 
im mfa verwende ich das $ als eine art 
steuerzeichen. es leitet titelverweisungen 
(früher/später/titelvarianten etc) ein. 
warum mache ich das? ich wüsste nicht, wie ich sonst daran komme:
wenn in einem datenfeld das steht:

#00 z0009686
#74 Recklinghausen
#81 UT $Tageszeitung für das westfälische Industriegebiet$
#81128.5.1949: $Neue Zeitung für Recklinghausen Stadt und Land$
#812HA in Dortmund
#8n Ruhr-Nachrichten / R
#93 MFA²b1949, 1.3. - 30.12. (L)²c2 Ro, Beilagen mitverfilmt
#94 Hrt 1
#99e20130225/11:35:20-7602/27
#99n20130115/14:54:17

der inhalt von 81 und unterfeldern kann äußerst(!!!) beliebig sein. 
um an die sinnvollen inhaltge ranzukommen, muß ich mit einem 
"steuerzeichen" arbeiten, habe ich für mich beschlossen...
da ist dann nur für mich eindeutig, eben mit $ vorne und hinten 
gemarkert: der titel oder ein ansatz....
ich weiss, ich werde die krise bekommen, wenn eine amerikanische 
(deutsche) zeitung im titel einen doller hat. dann ist großes autsch ;-)))))
das mfa interessiertsich zum glück nur für doitsches zeuchs ;-)




offtopick:
übrigens. das mfa wird superklasse.
mfa steht für microfilmarchiv der dt.sprachigen presse e.v.
sie haben jetzt 14.000 datensätze drin. 
ein kleiner vergleich mit dem buchstaben "C" hat ergeben:
das sie 33% MEHR einträge bei den titelansätzen haben, und bei den 
beilagen sogar noch mehr haben . und das ganze verglichen mit der ZDB!

als ich das mfa vor einigen jahren übernommen habe, war es ein schrecklicher 
allegrokatalog. unstrukturiert, voller fehler. jetzt, nach einigen 
indextricks z.B. hat das mfa einen mehrwert von 50% (!!!!!) an 
titelhinweisen. also sie können 50% mehr an titelansätzen oder was sie 
dafür halten suchen UND eben finden. man muss aber sagen: das mfa 
benutzt nur 10-15 felder aus der a-konfig. die TA's für ztg. sind 
äußerst minimal. eigentlich wird "nur" auf jede art von titel wert 
gelegt. und den verlauf. orte/herausgeber u.ä. sind eher nebensache.
UND, das muss man sich mal auf der zunge zergehen lassen, die 
feldstruktur und deren "befüllung" (also eingabe) war auf die 
printausgabe ausgelegt. deshalb gitb es IMMERNOCH 
schwachsinnigeszeichs wie DAS hier:
http://mfa.allegronet.de/grec.php?urN=4116
keiner weiss wofür die 2x "" stehen! (bei den duplikatfilmen).
doch ich und die macher wissen es ;-) 
es bezieht sich auf das in der dadrüberliegenden allegro-kategorie. 
arghh! ich habe keine ahnung, wie ich den mist/murks herausbekomme ;-(
_ende offtopick


offtops
übrigens: in den gerade erschienenen microfilmnachrichten gibt es 
ganze 2 seiten zum neuen webkatalog ;-)
popoffthetops



> * Eine der offensichtlichen Visualisierungen U25BE (offizielles
>   Unicode-Mapping des Zeichens 31 aus CP850) oder U25BC
>   einsetzen.

> Letzteres tue ich gerne, wenn ich MABXML oder MARCXML verarbeite:
> XML (1.0) erlaubt nicht das volle Unicode, sondern die meisten
> Steuerzeichen im Bereich 0-31 sind verboten. Verarbeite ich
> so eine Datei mit XML-Werkzeugen (etwa XSLT-Prozessoren), dann

ich habe großen "respekt" (sagen wir lieber wahrheitsgemäß ANGST!) vor 
xml-dateien. hach, weiss jemand wie er 10GB-große xml-dateien 
einliest? bestimmt nicht mit notepad++ .
ich habe auch schonmal die teuren "offiziellen" xml-werkzeuge als test 
benutzt (komme nicht auf den namen, von avito????), diese richtige 
teuren werkzeuge haben vor den großdateien gekniffen. niente!

auch meine anderen megaeditoren, die auch richtig geld kosten, mögen 
kein xml. was mach ich (trottel)?: ich wandele das teufelszeuchs mir 
erst mal in was allegro-lesbares um..... und werde nebenbei auch nicht 
gerade glücklich darüber (deshalb ich das projekt GND auch erstmal 
schlafen gelegt.... ;-(  (aaaah, es wäre schön, hätte man eine 
gnd-datenbank per z39.50, wo man schön ziehen könnte... ;-))


> kann ich zwar "gefelderten Text" erzeugen, der extrem Import-
> freundlich ist, kann den aber nicht direkt mit dem Zeichen 31
> formulieren, da weiche ich dann auf eine "Visualisierung" aus,
> das macht es dann auch editorfreundlicher, wenn man solche
> Zwischenergebnisse kontrollieren moechte.

ja, kommen wir zu den zeichen zurück ;-)
wir brauchen eben eindeutige regeln für die darstellung, sagen wir 
besser für die "lesbarkeit" in den dateien, für solche dateien.
sie haben was SEHR interessantes für xml gefunden. großes lob, wenn 
ich mir das erlauben darf ;-)


ähnliches thema:
ich sitze -relativ erfolgreich- an meinen zdb-projekt dran. es ist die 
hölle, was da zeichen sich drin tummelt. ich habe den kompletten 
datenbestand -offiziell- als marc hier vorliegen, weiss nicht immer 
die "felder" zu identifizieren. die braunschweigische marc-importdatei 
ist ein guter anfang -nebenbei!-. aber leider berücksichtigt sie nicht 
die felder, die die ZDB hat. naja, bin auf einem guten wege.. 
(wieviele wege gibt es wohl?) 
IN DEM zusammenhang: was die zdb da mit den sonderzeichen 
veranstaltet, ist von großem übel! wenn  man sich das mal mit einem 
(guten) anschaut, wird einem schlecht. es gibt einige verschiedene(!) 
umsetzungen der dt. umlaute. mit den ausländischen bin ich erstmal gar 
nicht vertraut. WENN ich es richtig sehe, sind in der ZDB 
unterschiedliche generationen von "umsetzungen von sonderzeichen" zu 
finden. nicht gut.

mittlerweile werde ich folgendes tun: es wird einen export aus marc 
geben. die zeichen landen alle merh oder weniger ungefiltert, also als 
original in der allegro-datenbank. in allegro mache ich dann meine 
späße und spielchen, um an die titeldatensätze UND den dazugehörigen 
lokaldatensätzen zu kommen! ERST beim export in einen ald-datei für die beauftragende 
bibliothek wird aus den sonderzeichen was allegro-taugliches gemacht. 
so bleibt der originaldatenbestand estmal quasi unangetastet in der 1,7 mill. großen datenbank, 
die übrigens 2,3GB an platz verbraucht.
mal schauen....



so, ich muss nun wirklich schluss machen. 
allegro-arbeiten warten. 
es höret nimmer auf.


ich weiss nicht, wer einen nutzen manchmal von "unseren" 
unterhaltungen hat, aber man kann schon was draus lernen und 
hoffentlich richtig oder noch besser machen ;-)
manchmal steige ich auch geistig regelrecht aus, nicht immer verstehe 
ich alles ,-)



viele grüße an alle
ihr klaus lehmann





> viele Gruesse
> Thomas Berger


> _______________________________________________
> Allegro mailing list
> Allegro at biblio.tu-bs.de
> http://sunny5.biblio.etc.tu-bs.de/mailman/listinfo/allegro



-- 
Mit freundlichen Grüßen,
Ihr Klaus Lehmann
http://allegronet.de * eMail: allegronet at t-online.de * phone: 03528-452 807(fax 809) * mobil: 0171-953 7843
allegronet.de * Klaus Lehmann * D-01454 Radeberg * Bahnhofstr. 1
zuständiges Finanzamt: FA Hoyerswerda, zuständige Kammer: IHK Dresden
zuständige Aufsichtsbehörde: Gewerbeamt Radeberg, USt-IdNr: DE247550760
* Software für zufriedene Bibliothekare: 1000x bewaehrt und ergiebig
* Bereits 4x allegro-utf8. Buchen Sie die allegro-Roadshow
* Yes we can. Only with allegro. Yes we do. Always with allegro.
* Internetkataloge & WebHosting für Allegro-C & Web 2.0 with VuFind
* 2011: Sponsor der Peter-Sodann-Bibliothek (Staucha)
* 2012: mit allegro-utf8 V3 und allegro-vufind auf der IFLA in Helsinki
* 2013: allegronet ist ein eingetragenes Warenzeichen





Am Mittwoch, 16. Juli 2014 um 10:28 schrieben Sie:
> Lieber Herr Lehmann,

>> einwurf: (kopfball?)
>> wenn ich weiss, daß unicode vorkommt:, in den para's,
>> dann muss ich eben totales unicode schreiben. dann darf ich mir nicht 
>> \031 fürs subfield erlauben.....

> Wieso? Auch in Unicode-codierten MAB- oder MARC21-Daten ist
> das Unterfeldzeichen das Zeichen 31.

> Allerdings ist dort das Zeichen ein reines Steuerzeichen,
> d.h. die Gleichsetzung "Steuerzeichen ASCII 31" <-> "Dreieck
> mit der Spitze nach unten" gilt nicht mehr. Insofern kann
> man das Zeichen auch nicht unbedingt mit einem Editor notieren
> und muss einen von mehreren Wegen gehen:

> * Escapen als \31

> * Umschreiben als "$" (aber was ist mit "$")

> * Eine der offensichtlichen Visualisierungen U25BE (offizielles
>   Unicode-Mapping des Zeichens 31 aus CP850) oder U25BC
>   einsetzen.

> Letzteres tue ich gerne, wenn ich MABXML oder MARCXML verarbeite:
> XML (1.0) erlaubt nicht das volle Unicode, sondern die meisten
> Steuerzeichen im Bereich 0-31 sind verboten. Verarbeite ich
> so eine Datei mit XML-Werkzeugen (etwa XSLT-Prozessoren), dann
> kann ich zwar "gefelderten Text" erzeugen, der extrem Import-
> freundlich ist, kann den aber nicht direkt mit dem Zeichen 31
> formulieren, da weiche ich dann auf eine "Visualisierung" aus,
> das macht es dann auch editorfreundlicher, wenn man solche
> Zwischenergebnisse kontrollieren moechte.

> viele Gruesse
> Thomas Berger


> _______________________________________________
> Allegro mailing list
> Allegro at biblio.tu-bs.de
> http://sunny5.biblio.etc.tu-bs.de/mailman/listinfo/allegro




Mehr Informationen über die Mailingliste Allegro