Mehrfache Dublettenpruefung
Sibylle Koczian
Sibylle.Koczian at bibliothek.uni-augsburg.de
Mi Mai 28 15:57:38 CEST 2003
Liebe Liste,
ich habe externe Daten, die in unsere Erwerbungsdatenbank hinein sollen.
Bei diesen Daten koennen Dubletten auf zweierlei Arten auftreten:
- Die Titel koennen aus anderer Quelle schon in der Datenbank sein. Dafuer
habe ich schon lange eine Dublettenpruefung via ISBN eingerichtet (sie wird
voruebergehend als Primaerschluessel benutzt). Dass die ihre Schwaechen
hat, ist klar, aber fuer den vorgesehenen Zweck hat's bisher gereicht.
- Jetzt gibt es aber auch Titel mit abweichender ISBN, aber gleicher
ID-Nummer. Es sind alles Daten aus der Reihe N der DDB; es ist dann schon
immer der gleiche Titel, aber manchmal ist der Verlag anders, manchmal nur
die ISBN, in jedem Fall werden die beiden Varianten in unterschiedlichen
Heften angezeigt. Was inhaltlich genau dahinter steckt, weiss ich nicht.
Da die ID-Nummer in der Datenbank als Primaerschluessel dient, ist
letzteres natuerlich fatal; aber auf die Dublettenpruefung via ISBN moechte
ich eigentlich auch nicht verzichten. Ich habe mir jetzt einen Flex
gebastelt, der die neuen Daten aus einer Grunddatei mit "read file"
einliest, jeden Satz nach beiden Kriterien prueft und nur die Saetze
speichert, die bei keiner Suche gefunden werden. Alle Dubletten kommen in
eine Dublettenliste.
Aber: das geht nicht nur sehr langsam, sondern trotz Speichern mit "put",
also ohne Rueckfrage, werden die neuen Saetze einer nach dem anderen
angezeigt, und das stoert mich schrecklich (und die Mitarbeiterin, die auf
Dauer den Import macht, wird es vermutlich genau so stoeren). Und leider
haben die einzelnen Datenlieferungen locker 2-3000 Saetze.
Natuerlich koennte ich die ganze Datenbank auf selbstgemachte
Primaerschluessel umstellen. Aber das waere nicht nur sehr aufwendig,
sondern es loest das Problem der Dubletten nicht. Sie sind da, auch wenn
sie keine stoerenden doppelten Primaerschluessel mehr erzeugen.
Kann mir jemand einen guten Rat geben?
Und eigentlich muesste die Neuanzeige bei "put" doch unterbleiben? Oder tut
sie das grundsaetzlich nicht, wenn externe Daten gespeichert werden?
Danke und beste Gruesse, Koczian
Dr. Sibylle Koczian
Universitaetsbibliothek, Abt. Naturwiss.
D-86135 Augsburg
Tel.: (0821) 598-2400, Fax : (0821) 598-2410
e-mail : Sibylle.Koczian at Bibliothek.Uni-Augsburg.DE
Mehr Informationen über die Mailingliste Allegro