Neue Sprachenliste

Mi Mär 13 09:59:21 CET 1996

Diese Mitteilung geht an die Listen INETBIB, MAB, ALLEGRO.

Vereinigte Sprachenliste
------------------------

Die Diskussion vorige Woche in der MAB-Liste fiel in die Endphase eines 
Projekts, das hier schon laengere Zeit lief. Wir wollten zu dem Zeitpunkt 
noch nichts ueber den ganzen Umfang der Ergebnisse sagen, das hat leider 
die Diskussion etwas verzerrt. Jetzt kommt die Bekanntgabe.

Das Projekt befasste sich mit der Erstellung einer umfangreichen
Formate-Konkordanz. Zuletzt wurde das USMARC-Format mit allen fuenf
Teilformaten aus den Original-Dokumentationstexten der LC als
"allegro"-Datenbank aufbereitet. Diese Datenbank wird vermutlich
naechste Woche freigegeben. Ein Teil davon ist die Sprachenliste,
aber auch die Geographic Area Codes und die Country Codes sind in
der Datenbank enthalten, desgleichen die eigenglich nicht zu MARC
gehoerigen Formschlagwoerter der LCSH (sog. "free floating subdivisions").
Dazu mehr in einer anderen Mitteilung, hier nur zur Sprachenliste.

Folgendes wurde gemacht:

1. Vereinigung der DIN2335 mit den Language Codes des USMARC

2. Hinzunahme von Sprachen, die (soweit feststellbar) weltweit
   von mehr als eine Million Menschen gesprochen werden, und/oder
   in einem Staat als Amts- oder offizielle Sprache fungieren.
   (Weil sich zeigte, dass beide Listen in dieser Hinsicht unvoll-
   staendig waren, andererseits aber Sprachen enthielten, die nur von 
   wenigen 100 Menschen gesprochen werden. Ob das nun vollstaendig
   ermittelt wurde, sei dahingestellt - sicher nicht. Aber besser als
   die derzeitig verwendeten Listen duerfte diese schon sein.)

3. Ermittlung aller Schreibweisen dieser Sprachen, wobei die SWD-
   Ansetzungen in jedem Fall beruecksichtigt wurden.

Das Ergebnis sieht auszugsweise so aus:
(Die Liste hat 972 Zeilen fuer 463 Sprachen)

LC    DIN  Sp   Sprache

................
pus   ps   21  %Paschtu  (Pushto = Paschtu)  [*Afghanistan, Pakistan, Iran]
                Pasto --> Paschtu
                Pehlewi --> Mittelpersisch
per   fa   37  %Persisch  (Persian = Farsi)  [*Iran, Afghanistan]
                Peul --> Ful
                Phoewa --> Tibetisch
came        2  %Pidgin-Englisch <Kamerun>  (Cameroon Pidgin)  [Cameroon]
hmo             Pidgin-Englisch <Papua-Neuguinea>  (Hiri Motu)  [Papua-New Guinea]
                Plattdeutsch --> Niederdeutsch
                Pohnpeian --> Ponapeanisch
pol   pl   44  %Polnisch  (Polish = Polski)  [*Poland]
mul   mu+       Polyglott  (Multiple languages)
pon         0  %Ponapeanisch  (Ponape)  [Micronesia]
por   pt  177   Portugiesisch  (Portuguese = Portugues)  [*Brazil, *Portugal, *Angola]
                Portugiesisch-Kreolisch --> Kreolisch-Portugiesisch
pra   pr+      %Prakrit  (Prakrit languages)
prov        4  %Provenzalisch  (Provencal)  [France]
                Provenzalisch <im weiteren Sinne> --> Okzitanisch
                Pula-Sprache --> Ful
                Pulaar --> Ful
                Punjabi --> Pandschabi-Sprache
                Puschtu --> Paschtu
                Pustu --> Paschtu
                Puynipet --> Ponapeanisch
                Qalqa --> Chalcha
que   qu    8  %Quechua-Sprache  (Quechua)  [*Peru, Bolivia, Ecuador, Argentina]
                Quichua --> Quechua-Sprache
roh   rm       %Raetoromanisch  (Raeto-Romance = Romontsch)  [Italy, *Switzerland]
raj   ra   16  %Rajasthani  (Rajasthani)  [India]
                Rajputani --> Rajasthani
....................

Dabei bedeuten die Spalten dieses:

LC       Der in USMARC verwendete Code. Vierstellige Codes wurden
         provisorisch vergeben fuer Sprachen, die nicht in der USMARC-
         Liste standen.

DIN      Code aus DIN 2335 (=ISO 639/1), ein '+' kennzeichnet die im GBV 
         neuerdings zusaetzlich verwendeten Codes

Sp       Anzahl Sprecher in Millionen. 0 heisst, dass es weniger als
         1 Million sind. (In manchen Faellen nur wenige 100)

Sprache  Das % kennzeichnet die SWD-Ansetzungen, die Verweisungen
         ergeben sich aus den verarbeiteten Quellen.
         In Klammern (..) die englische Form, gefolgt von der Original-
         sprachigen Bezeichnung, wenn sie zur ermitteln war.
         (Die englischen Namen sind die der Original-LC-Liste.)
         In [..] die Hauptverbreitungsgebiete, wobei der *  bedeutet,
         dass in dem betr. Land die Sprache offiziell ist (Staats-
         oder Zweitsprache). Damit hat man Indikatoren, die auf
         ein gewisses Medienaufkommen schliessen lassen.

Ausgewertete Quellen:

 1. Encyclopedia of language and linguistics / Ed. R.E.Asher. - Oxford:
     Pergamon , 1994. 10v. 
     (Insbes. Liste "Languages of the World" in Vol.10)

 2. International encyclopedia of linguistics / Ed. W. Bright. - Oxford:
     Oxf. Univ. Pr., 1992.

 3. Encyclopedia Britannica. 15th ed. - 1989.
    (Insbes. "Macropedia" Vol.22)

 4. Metzler Lexikon Sprache / Hrsg. H. Glueck. - Stuttgart: Metzler, 1993.
    (Lieferte die Bezeichnungen, die in der Linguistik zur Zeit ueblich
    sind, sowie viele Originalnamen)

 5. Sprachen / H.F. Wendt. - Frankfurt : Fischer, 1961. (Das Fischer
      Lexikon) 
    (War trotz des Alters in manchen Faellen noch hilfreich wegen z.B.
    veralteter Schreibweisen)

Statistische Angaben muessten noch ausfuehrlicher recherchiert werden,
etwa im "Atlas of the world's languages" (London: Routledge, 1994)
Im wesentlichen wurde eine handliche Liste benutzt, die im Webster's
New Encyclopedic Dictionary als Anhang steht (Stand 1993).

Die Datenbank enthaelt noch mehr Angaben als diese Liste, insbes. die
Zuordnung zu Sprachfamilien (Finno-Ugrian, Dravidian, ...), aber alles
auf Englisch. Im Register der Datenbank findet man auch alle englischen
und originalsprachlichen Bezeichnungen, die in der Auszugsliste
aus Umfangsgruenden nicht als Verweisungen auftauchen. Ausserdem
enthaelt die Datenbank den erweiterten Zeichensatz, einschliesslich
aller Diakritika der Norm DIN 31628/2. 

Sie koennen sich die Datei folgendermassen abholen:

  ftp 134.169.20.1
  anonymous
  <Ihre e-mail Adresse>
  cd anwender
  get sprachen.exe
  quit

Kopieren Sie SPRACHEN.EXE auf ein Verzeichnis und stareten Sie es.
Nach dem Entpacken sagen Sie dann  "spr". Alles weitere erklaert sich
dann selbst. 
(Zeichensatz wird automatisch auf unseren OSTWEST-Font umgestellt, der
eine Erweiterung von DIN 31628/2 ist. Nach Verlassen des Programms hat 
man Zeichensatz 437!)

Die Datenbank samt Zugriffsprogramm gibt es naechste Woche.
Ankuendigung erfolgt in denselben Listen.

MfG  B.E.  (960313)

P.S.
Nachwort zur SWD.
Sie enthaelt viel mehr Sprachen als diese, aber einige auf der Liste fehlen
natuerlich. Denn sie verzeichnet nur Sprachen, die als Thema von Veroeffent-
lichungen schon mal auftraten. 
Eine aergerliche Sache: es gibt KEIN Kriterium, mit dem man die Sprach-
Datensaetze aus der SWD ausfiltern koennte, denn sie haben mit den
Geographischen Schlagwoertern zusammen den Typ g und es ist fuer fast
alle Saetze dieses Typs keine Sachgebietsnummer vergeben worden (warum
eigentlich nicht?) Daher koennen wir nur schaetzen, dass ungefaehr 1800
Sprachsaetze in der SWD sind. Wir haben mal alle Saetze selektiert,
die "sprache" enthalten und Typ g sind, oder im Kommentarfeld das Wort
"Klose" enthalten (meistverwendetes Nachschlagewerk). Das waren 1335, 
sind aber beiweitem nicht alle. Z.B. fehlen "Deutsch" und "Englisch". 
Genau diese sind vielleicht die einzigen, die man im Normalbetrieb braucht.

Wahrscheinlich ist die neue Liste fuer ihren Zweck ueberdimensioniert.
Was braucht man im normalen OPAC? Der Student will wissen, ob zu seinem
Thema Buecher in Deutsch, vielleicht noch Englisch, da sind. Doch ist
die DIN-Liste ja nicht primaer fuer Bibliothekszwecke gedacht, sondern
zur sprachlichen Kennzeichnung von Sachverhalten aller Art. Wie Herr
Henze (DB) schon anmerkte, ist sie unbefriedigend. Diese neue Liste
duerfte das belegen, falls das noch noetig gewesen waere.
Zweck der Liste ist NICHT die Sacherschliessung. Dazu waere eine hierar-
chische Klassifikation wohl besser, und zur verbalen Feinerschliessung 
natuerlich die SWD. Aber das koennen Linguisten besser beurteilen.
Zweck der Liste war fuer uns NUR, eine verlaessliche Konkordanz aufzu-
stellen, mit allen gaengigen und ueblichen Namen der Sprachen in Deutsch
und Englisch sowie Originalsprache. Diese Arbeit hat sich dann ein wenig 
ausgeweitet. Ein Urheberrecht wird nicht beansprucht, freie Weitergabe
wird befuerwortet.