Zum Wochenende

Bernhard Eversberg EV at buch.biblio.etc.tu-bs.de
Fr Nov 28 09:21:31 CET 1997


UNICODE-Datenbank 
-----------------

Inhalt: 6500 Datensaetze aller nicht-ideographischen UNICODE-Zeichen 
        Konkordanz mit 40 anderen Zeichensaetzen, incl. SGML/HTML

Sinn:   1. Studium des UNICODE-Systems
        2. Produktion von Konkordanzen zwischen je 2 Zeichensaetzen.

Hinweis: Kollege Helliwell in Oxford hat eine andere (viel groessere)
Datenbank gemacht fuer die ideographischen Zeichen, insbes. Chinesisch.
Diese wird momentan ueberarbeitet.

Die Datenbank wurde aus der aktuellen UNICODE-Dokumentation entwickelt.
Das ist Version 2.0. Die Konkordanzlisten stammen zum groessten Teil
ebenfalls vom UNICODE-Server ftp.unicode.org. Nur Pica, MAB1, MAB2, allegro
und USMARC wurden selbst erfasst.

Es gibt 9 Register: (mit Alt+3 schaltet man z.B. Register 3 ein)
(Tip: Im Register 2 findet man gesuchte Buchstaben mit Akzenten am leichtesten)

1 : Names of characters (official UNICODE names)
2 : Letters, Ligatures, Digits (names of letters only)
3 : Word index  (all words occuring in the UNICODE names)
4 : Directionality, Decomposition types  (technical details of UNICODE)
5 : Number values and digits (of those codes designating digits and numbers)
6 : Comments 
7 : General category  (a classification of symbols)
8 : Related (equivalent) characters (of upper/lower equivalents)
9 : Unicode 2-Byte codes (hexadecimal)
    Listings of all other codes


Per Knopfdruck kann man Konkordanzen zwischen je zwei beliebigen Zeichensaetzen
als Liste CLIST produzieren lassen. Das ist eine etwas elaborierte Anwendung
von Flips.
Fuer Experten: es gibt dazu einen Hilfssatz, den man nur im Register 10 findet.

Ausschnitt aus dem Register 2 : Buchstaben, Ziffern, Ligaturen
    ....
    1  turned t
    1  turned v
    1  turned w
    1  turned y
   25  two
    1  two bar
    1  two full stop
    1  two period
    1  two with stroke
  105  u                  [d.h. es gibt 105 Formen des Buchstabens u !]
    2  u acute
    1  u bar
    2  u breve
    2  u circumflex
    2  u diaeresis
    2  u diaeresis acute
    2  u diaeresis grave
    2  u diaeresis hacek
    2  u diaeresis macron
    2  u double acute
    1  u final form
    2  u grave
    2  u hacek         -->  [Datensatz-Anzeige siehe unten]
    2  u horn
    1  u isolated form
    2  u macron
    2  u ogonek
    2  u ring
    2  u tilde
    2  u with acute
    2  u with breve
    2  u with caron
    2  u with circumflex
    2  u with circumflex below
    4  u with diaeresis
    2  u with diaeresis and acute
    2  u with diaeresis and caron
    2  u with diaeresis and grave
    2  u with diaeresis and macron
    2  u with diaeresis below
    2  u with dot below
    4  u with double acute
    2  u with double grave
    2  u with grave
    1  u with hamza above
    1  u with hamza above isolated form
    2  u with hook above
    2  u with horn
    2  u with horn and acute
    2  u with horn and dot below
    2  u with horn and grave
    2  u with horn and hook above
    2  u with horn and tilde
    2  u with inverted breve
    4  u with macron
    2  u with macron and diaeresis
    2  u with ogonek
    2  u with ring above
    2  u with tilde
    2  u with tilde and acute
    2  u with tilde below
    ....


          UNICODE    01D4
             NAME    LATIN SMALL LETTER U WITH CARON
        Buchstabe    U
                     
General Category     Letter, Lowercase
                     
Canonic.Combin.Cl.   0  Normal
Bidirectional        Left-Right
Mirrored Y/N         N
Old Unicode Name     LATIN SMALL LETTER U HACEK
UpperCaseEquival     01D3


Hier die Liste der beruecksichtigen Codes: (Auszug aus der $Y.CFG)

#89"SGML"

#91"ostwest"
#92"pica"
#93"usmarc"

#94"IBM-PC-ASCII-Codes"
   #94      437  us
      a     850  latin1
      b     852  latin2 
      c     863  canada
      d     865  nordic
      e     861  iceland
      f     860  portug
      g     855  cyrill
      h     866  crillRuss
      j     869  greek
      k     857  turk
      l     862  hebrew
      m     864  arabic

#95"WindowsCodes"
   #95a    1252  Latin
      b    1250  Latin2
      g    1251  Cyrill
      i    1257  Baltic
      j    1253  Greek
      k    1254  Turk
      l    1255  Hebrew
      m    1256  Arabic
      v    1258  Vietnam

#96"ISO"
   #96   8859-1  western europe IDENTICAL with UNICODE x00-xFF !
      a       2  other europe
      c       3  latin2 eastern europe
      g       5  cyrill
      i       4  baltic
      j       7  greek
      k       9  turk
      l       8  hebrew
      m       6  arab
      z    MAB2  Deutsche Bibliothek MAB2

#97"EBCDIC"
            037  USCanada
      a     500  International
      j     875  Greek
      k    1026  Latin5Turkish
      z    MAB1  Deutsche Bibliothek MAB1

#98"Other"
      m    MacR  Apple Macintosh Roman

Eine ausfuehrlichere Beschreibung auf Englisch ist als UNIC.TXT in dem
Paket enthalten und auch separat auf FORMATE zu finden.

Die Datei liegt als UNIC.EXE auf FORMATE.
Man kopiert das auf ein Unterverzeichnis, startet es, und dann UNI.BAT.

Viel Erfolg!  B.E.






Mehr Informationen über die Mailingliste Allegro