[Allegro] Daten vom Project Gutenberg im N-Format

Bernhard Eversberg ev at biblio.tu-bs.de
Di Jun 13 12:49:38 CEST 2006


"O heilges Geist- und Wasserbad"
ist die Bach-Kantate 165 betitelt, die vorgestern dran war, am Sonntag
"Trinitatis". Weithin populär war wohl nur der zweite Teil, während
natürlich der Geist unentwegt über den Wassern schwebte.

Sammelbecken exquisiter geistiger Essenz ist das "Project Gutenberg".
Gerade wer sich von der seichten Seenplatte des Internet und seinen
trüben Brack- und Abwässern gerne fernhält, schon der Virenschwärme
wegen, die einen da anfallen, taucht doch gern in die im PG
kondensierte Ausflüsse anerkannter Spitzengeister ein, ob heilig
oder nicht, darin sich zu erquicken.

Auf WikiPedia, Mangroveninsel in der Seenplatte, meint man dazu:
"Es gibt derzeit zwei laufende Projekte, die den Namen "Projekt G."
im Titel tragen. Sie dienen zur Erstellung bzw. Erfassung digitaler
Kopien älterer Literatur, bei der das Urheberrecht abgelaufen ist,
oder neuerer Literatur, die frei zur Verfügung gestellt wird.
Zu unterscheiden sind:
  * Das freie internationale Projekt Gutenberg: Project Gutenberg
         http://www.gutenberg.org
  * Das kommerzielle deutsche Projekt Gutenberg-DE: Projekt Gutenberg-DE
         http://www.gutenberg.spiegel.de
(die Namenswahl ist absichtlich ähnlich, aber das Projekt steht in
keinem offiziellen Zusammenhang mit dem Project Gutenberg)"
[Was "digitale Kopien" sind, läßt WP offen.]

Das PG wurde schon lange vor dem Web initiiert, und zwar zu einer Zeit,
als z.B. JPEG, GIF und TIFF noch nicht erfunden waren und niemand sich
erkühnte, Abbilder von Buchseiten online bereitstellen zu wollen.
Ausgewählte Texte, "Klassiker" im weitesten Sinne, "gemeinfrei" im
Sinne des Urheberrechts, sollten als Textdateien der Allgemeinheit
freizügig (kostenlos) zugänglich gemacht werden. Ein Michael Hart
startete das Projekt sage und schreibe schon im Jahre 1971. Man mußte
die Bücher als Texte erfassen, also abschreiben. Dies geschah in
schlichtester Weise: nur der reine Text wurde - von Freiwilligen,
nicht in Lohnarbeit - eingetippt, ohne Schriftauszeichnungen also:
Keine fetten Überschriften, keine Kursivschrift, keine
Unterstreichungen oder sonstige Hervorhebungen, sondern eitel
ASCII-Text ("eitel" hatte einstmals die zweite Bedeutung "nur").
Gegenüber eingescannten Seiten bietet das den unschätzbaren Vorteil,
mittels Copy&Paste exzerpieren (und plagiieren) zu können.
Abschreiben geht natürlich nicht so schnell wie scannen, zumal wenn
nichts dafür bezahlt wird, deshalb ist die Zahl der PG-Titel,
ursprünglich plante man 10.000, bis heute erst auf gut 18.000
angewachsen. Diese sind nun an mehreren Web-Adressen vorzufinden,
aber auch auf CD gepreßt preisgünstig zu erwerben.

Was sollen Bibliotheken damit machen? Da gibt es mehrere Strategien:

A) Ignorieren. Bibliotheken haben richtige Bücher, und damit basta.

B) Freudig begrüßen. Im Extremfall: die physischen Bücher ausmustern,
    weg mit den verstaubten Schwarten, und den Platz frei für mehr PCs.

C) Zur Kenntnis nehmen. Nutzer auf einer Link-Seite auf PG aufmerksam
    machen. ("Ach übrigens, falls ihr bei uns mal was nicht findet, da
    gibt's so eine Textsammlung, versucht's halt mal dort...")

D) Auffindbar machen. Die PG-Titel katalogisieren, als hätte man sie im
    Bestande, statt Signatur natürlich die URL. Nutzer finden dann den
    Thukydides und den Tucholsky da, wo sie ihn vermuten, können aber
    dann sofort drauf zugreifen.

E) Vereinnahmen. Alles kopieren und in die eigene "Digitale Bibliothek"
    mit aufnehmen. Was man hat, das hat man! Was andere haben, da kann
    man sich nicht drauf verlassen, wenn's mal hart auf hart geht.

F) Löcher stopfen. Einen Text, dessen man nicht physisch habhaft werden
    kann, körperlos katalogisieren und statt Signatur mit der PG-URL
    versehen. So könnte etwa ein Institut für Schürf- und Bohrtechnik
    mit einem einschlägigen, tiefschürfenden Text von P. Panter eine
    gähnende Bestandslücke schließen:
        http://gutenberg.spiegel.de/tucholsk/essays/loecher.htm

Zu D) oder F) werden alle neigen, deren Heilsbotschaft "Hybride Biblio-
thek" lautet. Und ist es Nutzern nicht egal, ob "ihre" Bibliothek das
Buch hat oder einen Hyperlink zu einer digitalen Version? Ja, ist es
ihnen nicht wesentlich sympathischer, vom Schreibtisch oder Sofa aus
im Katalog eine PG-Version zu finden und sogleich herunterladen und
ausdrucken zu können, ohne Vorbestellung, ohne "verliehen", ohne Fett-
flecken und alberne Randnotizen? Werden sie die Bibliothek nicht
preisen für diesen Dienst?
Das kurioseste Werk im PG hat 21 Bände und kommt mit nur 4 Buchstaben
aus: A C G T. Es enthält die Seqenzen der 21 Gene des humanen Erbguts,
Essenz des "Human Genome Project", und, weil ja jeder in seinen
Körperzellen ungezählte Kopien dieses Textes unveräußerlich mit sich
herumträgt, urheberrechtlich nicht schützbar - doch die Rechte,
zugeschrieben in Gen.1,26-27, sind eh seit Äonen verfallen, und jene
Zuschreibung deutet sogar an, daß nur ein Vorbild unbekannten Alters
(mehr schlecht als recht?) kopiert wurde.

Und was interessiert uns alles das in dieser Liste?
Nun, das "Neutralformat" soll dem Anspruch genügen, alles mögliche
nachweisen zu können, was auffindbar gemacht werden soll. Folglich
muß dem Anwender ermöglicht werden, Strategien D) oder F) zu wählen.
Exemplarisch haben wir das vorgemacht und die 18.000 Titel in den
N-DemoKatalog aufgenommen:
     http://www.biblio.tu-bs.de/db/neutral/

Tip: Stichwort "etext" mit eingeben!
Die Metadaten sind kostenlos zu haben unter
         http://www.gutenberg.org/feeds/
Natürlich sind sie nicht von herausragender Qualität, Bibliothekare
hatten da gewiß nicht die Finger drin - aber sicher auch z.B. keine
Theologen. So wird etwa bei besagtem 21bändigen Werk das "Human Genome
Project" als "Schöpfer" genannt (Dublin Core sagt "Creator" für Autor).
Hm. Die Spitzengeister haben wohl all ihr Potential in die Inhalte
gesteckt - ob und wie leicht man die nun findet, das war nicht ihr
Thema. Auf das dazu nötige Pfingstwunder gilt es noch zu hoffen.





Mehr Informationen über die Mailingliste Allegro