Mehrfache Dublettenpruefung

Sibylle Koczian Sibylle.Koczian at bibliothek.uni-augsburg.de
Mi Mai 28 15:57:38 CEST 2003


Liebe Liste,

ich habe externe Daten, die in unsere Erwerbungsdatenbank hinein sollen. 
Bei diesen Daten koennen Dubletten auf zweierlei Arten auftreten:

- Die Titel koennen aus anderer Quelle schon in der Datenbank sein. Dafuer 
habe ich schon lange eine Dublettenpruefung via ISBN eingerichtet (sie wird 
voruebergehend als Primaerschluessel benutzt). Dass die ihre Schwaechen 
hat, ist klar, aber fuer den vorgesehenen Zweck hat's bisher gereicht.

- Jetzt gibt es aber auch Titel mit abweichender ISBN, aber gleicher 
ID-Nummer. Es sind alles Daten aus der Reihe N der DDB; es ist dann schon 
immer der gleiche Titel, aber manchmal ist der Verlag anders, manchmal nur 
die ISBN, in jedem Fall werden die beiden Varianten in unterschiedlichen 
Heften angezeigt. Was inhaltlich genau dahinter steckt, weiss ich nicht.

Da die ID-Nummer in der Datenbank als Primaerschluessel dient, ist 
letzteres natuerlich fatal; aber auf die Dublettenpruefung via ISBN moechte 
ich eigentlich auch nicht verzichten. Ich habe mir jetzt einen Flex 
gebastelt, der die neuen Daten aus einer Grunddatei mit "read file" 
einliest, jeden Satz nach beiden Kriterien prueft und nur die Saetze 
speichert, die bei keiner Suche gefunden werden. Alle Dubletten kommen in 
eine Dublettenliste.

Aber: das geht nicht nur sehr langsam, sondern trotz Speichern mit "put", 
also ohne Rueckfrage, werden die neuen Saetze einer nach dem anderen 
angezeigt, und das stoert mich schrecklich (und die Mitarbeiterin, die auf 
Dauer den Import macht, wird es vermutlich genau so stoeren). Und leider 
haben die einzelnen Datenlieferungen locker 2-3000 Saetze.

Natuerlich koennte ich die ganze Datenbank auf selbstgemachte 
Primaerschluessel umstellen. Aber das waere nicht nur sehr aufwendig, 
sondern es loest das Problem der Dubletten nicht. Sie sind da, auch wenn 
sie keine stoerenden doppelten Primaerschluessel mehr erzeugen.

Kann mir jemand einen guten Rat geben?

Und eigentlich muesste die Neuanzeige bei "put" doch unterbleiben? Oder tut 
sie das grundsaetzlich nicht, wenn externe Daten gespeichert werden?

Danke und beste Gruesse, Koczian


Dr. Sibylle Koczian
Universitaetsbibliothek, Abt. Naturwiss.
D-86135 Augsburg

Tel.: (0821) 598-2400, Fax : (0821) 598-2410
e-mail : Sibylle.Koczian at Bibliothek.Uni-Augsburg.DE





Mehr Informationen über die Mailingliste Allegro