Neue Sprachenliste
Bernhard Eversberg
EV at buch.biblio.etc.tu-bs.de
Mi Mär 13 09:59:21 CET 1996
Diese Mitteilung geht an die Listen INETBIB, MAB, ALLEGRO.
Vereinigte Sprachenliste
------------------------
Die Diskussion vorige Woche in der MAB-Liste fiel in die Endphase eines
Projekts, das hier schon laengere Zeit lief. Wir wollten zu dem Zeitpunkt
noch nichts ueber den ganzen Umfang der Ergebnisse sagen, das hat leider
die Diskussion etwas verzerrt. Jetzt kommt die Bekanntgabe.
Das Projekt befasste sich mit der Erstellung einer umfangreichen
Formate-Konkordanz. Zuletzt wurde das USMARC-Format mit allen fuenf
Teilformaten aus den Original-Dokumentationstexten der LC als
"allegro"-Datenbank aufbereitet. Diese Datenbank wird vermutlich
naechste Woche freigegeben. Ein Teil davon ist die Sprachenliste,
aber auch die Geographic Area Codes und die Country Codes sind in
der Datenbank enthalten, desgleichen die eigenglich nicht zu MARC
gehoerigen Formschlagwoerter der LCSH (sog. "free floating subdivisions").
Dazu mehr in einer anderen Mitteilung, hier nur zur Sprachenliste.
Folgendes wurde gemacht:
1. Vereinigung der DIN2335 mit den Language Codes des USMARC
2. Hinzunahme von Sprachen, die (soweit feststellbar) weltweit
von mehr als eine Million Menschen gesprochen werden, und/oder
in einem Staat als Amts- oder offizielle Sprache fungieren.
(Weil sich zeigte, dass beide Listen in dieser Hinsicht unvoll-
staendig waren, andererseits aber Sprachen enthielten, die nur von
wenigen 100 Menschen gesprochen werden. Ob das nun vollstaendig
ermittelt wurde, sei dahingestellt - sicher nicht. Aber besser als
die derzeitig verwendeten Listen duerfte diese schon sein.)
3. Ermittlung aller Schreibweisen dieser Sprachen, wobei die SWD-
Ansetzungen in jedem Fall beruecksichtigt wurden.
Das Ergebnis sieht auszugsweise so aus:
(Die Liste hat 972 Zeilen fuer 463 Sprachen)
LC DIN Sp Sprache
................
pus ps 21 %Paschtu (Pushto = Paschtu) [*Afghanistan, Pakistan, Iran]
Pasto --> Paschtu
Pehlewi --> Mittelpersisch
per fa 37 %Persisch (Persian = Farsi) [*Iran, Afghanistan]
Peul --> Ful
Phoewa --> Tibetisch
came 2 %Pidgin-Englisch <Kamerun> (Cameroon Pidgin) [Cameroon]
hmo Pidgin-Englisch <Papua-Neuguinea> (Hiri Motu) [Papua-New Guinea]
Plattdeutsch --> Niederdeutsch
Pohnpeian --> Ponapeanisch
pol pl 44 %Polnisch (Polish = Polski) [*Poland]
mul mu+ Polyglott (Multiple languages)
pon 0 %Ponapeanisch (Ponape) [Micronesia]
por pt 177 Portugiesisch (Portuguese = Portugues) [*Brazil, *Portugal, *Angola]
Portugiesisch-Kreolisch --> Kreolisch-Portugiesisch
pra pr+ %Prakrit (Prakrit languages)
prov 4 %Provenzalisch (Provencal) [France]
Provenzalisch <im weiteren Sinne> --> Okzitanisch
Pula-Sprache --> Ful
Pulaar --> Ful
Punjabi --> Pandschabi-Sprache
Puschtu --> Paschtu
Pustu --> Paschtu
Puynipet --> Ponapeanisch
Qalqa --> Chalcha
que qu 8 %Quechua-Sprache (Quechua) [*Peru, Bolivia, Ecuador, Argentina]
Quichua --> Quechua-Sprache
roh rm %Raetoromanisch (Raeto-Romance = Romontsch) [Italy, *Switzerland]
raj ra 16 %Rajasthani (Rajasthani) [India]
Rajputani --> Rajasthani
....................
Dabei bedeuten die Spalten dieses:
LC Der in USMARC verwendete Code. Vierstellige Codes wurden
provisorisch vergeben fuer Sprachen, die nicht in der USMARC-
Liste standen.
DIN Code aus DIN 2335 (=ISO 639/1), ein '+' kennzeichnet die im GBV
neuerdings zusaetzlich verwendeten Codes
Sp Anzahl Sprecher in Millionen. 0 heisst, dass es weniger als
1 Million sind. (In manchen Faellen nur wenige 100)
Sprache Das % kennzeichnet die SWD-Ansetzungen, die Verweisungen
ergeben sich aus den verarbeiteten Quellen.
In Klammern (..) die englische Form, gefolgt von der Original-
sprachigen Bezeichnung, wenn sie zur ermitteln war.
(Die englischen Namen sind die der Original-LC-Liste.)
In [..] die Hauptverbreitungsgebiete, wobei der * bedeutet,
dass in dem betr. Land die Sprache offiziell ist (Staats-
oder Zweitsprache). Damit hat man Indikatoren, die auf
ein gewisses Medienaufkommen schliessen lassen.
Ausgewertete Quellen:
1. Encyclopedia of language and linguistics / Ed. R.E.Asher. - Oxford:
Pergamon , 1994. 10v.
(Insbes. Liste "Languages of the World" in Vol.10)
2. International encyclopedia of linguistics / Ed. W. Bright. - Oxford:
Oxf. Univ. Pr., 1992.
3. Encyclopedia Britannica. 15th ed. - 1989.
(Insbes. "Macropedia" Vol.22)
4. Metzler Lexikon Sprache / Hrsg. H. Glueck. - Stuttgart: Metzler, 1993.
(Lieferte die Bezeichnungen, die in der Linguistik zur Zeit ueblich
sind, sowie viele Originalnamen)
5. Sprachen / H.F. Wendt. - Frankfurt : Fischer, 1961. (Das Fischer
Lexikon)
(War trotz des Alters in manchen Faellen noch hilfreich wegen z.B.
veralteter Schreibweisen)
Statistische Angaben muessten noch ausfuehrlicher recherchiert werden,
etwa im "Atlas of the world's languages" (London: Routledge, 1994)
Im wesentlichen wurde eine handliche Liste benutzt, die im Webster's
New Encyclopedic Dictionary als Anhang steht (Stand 1993).
Die Datenbank enthaelt noch mehr Angaben als diese Liste, insbes. die
Zuordnung zu Sprachfamilien (Finno-Ugrian, Dravidian, ...), aber alles
auf Englisch. Im Register der Datenbank findet man auch alle englischen
und originalsprachlichen Bezeichnungen, die in der Auszugsliste
aus Umfangsgruenden nicht als Verweisungen auftauchen. Ausserdem
enthaelt die Datenbank den erweiterten Zeichensatz, einschliesslich
aller Diakritika der Norm DIN 31628/2.
Sie koennen sich die Datei folgendermassen abholen:
ftp 134.169.20.1
anonymous
<Ihre e-mail Adresse>
cd anwender
get sprachen.exe
quit
Kopieren Sie SPRACHEN.EXE auf ein Verzeichnis und stareten Sie es.
Nach dem Entpacken sagen Sie dann "spr". Alles weitere erklaert sich
dann selbst.
(Zeichensatz wird automatisch auf unseren OSTWEST-Font umgestellt, der
eine Erweiterung von DIN 31628/2 ist. Nach Verlassen des Programms hat
man Zeichensatz 437!)
Die Datenbank samt Zugriffsprogramm gibt es naechste Woche.
Ankuendigung erfolgt in denselben Listen.
MfG B.E. (960313)
P.S.
Nachwort zur SWD.
Sie enthaelt viel mehr Sprachen als diese, aber einige auf der Liste fehlen
natuerlich. Denn sie verzeichnet nur Sprachen, die als Thema von Veroeffent-
lichungen schon mal auftraten.
Eine aergerliche Sache: es gibt KEIN Kriterium, mit dem man die Sprach-
Datensaetze aus der SWD ausfiltern koennte, denn sie haben mit den
Geographischen Schlagwoertern zusammen den Typ g und es ist fuer fast
alle Saetze dieses Typs keine Sachgebietsnummer vergeben worden (warum
eigentlich nicht?) Daher koennen wir nur schaetzen, dass ungefaehr 1800
Sprachsaetze in der SWD sind. Wir haben mal alle Saetze selektiert,
die "sprache" enthalten und Typ g sind, oder im Kommentarfeld das Wort
"Klose" enthalten (meistverwendetes Nachschlagewerk). Das waren 1335,
sind aber beiweitem nicht alle. Z.B. fehlen "Deutsch" und "Englisch".
Genau diese sind vielleicht die einzigen, die man im Normalbetrieb braucht.
Wahrscheinlich ist die neue Liste fuer ihren Zweck ueberdimensioniert.
Was braucht man im normalen OPAC? Der Student will wissen, ob zu seinem
Thema Buecher in Deutsch, vielleicht noch Englisch, da sind. Doch ist
die DIN-Liste ja nicht primaer fuer Bibliothekszwecke gedacht, sondern
zur sprachlichen Kennzeichnung von Sachverhalten aller Art. Wie Herr
Henze (DB) schon anmerkte, ist sie unbefriedigend. Diese neue Liste
duerfte das belegen, falls das noch noetig gewesen waere.
Zweck der Liste ist NICHT die Sacherschliessung. Dazu waere eine hierar-
chische Klassifikation wohl besser, und zur verbalen Feinerschliessung
natuerlich die SWD. Aber das koennen Linguisten besser beurteilen.
Zweck der Liste war fuer uns NUR, eine verlaessliche Konkordanz aufzu-
stellen, mit allen gaengigen und ueblichen Namen der Sprachen in Deutsch
und Englisch sowie Originalsprache. Diese Arbeit hat sich dann ein wenig
ausgeweitet. Ein Urheberrecht wird nicht beansprucht, freie Weitergabe
wird befuerwortet.
Mehr Informationen über die Mailingliste Allegro