[Allegro] CJK-Zeichen-Datenbank
Heinrich Allers
allers at t-online.de
Sa Apr 4 02:38:46 CEST 2009
#######################################
Nur für die Kolleginnen und Kollegen, die sich für
chinesisch/japanisch/koreanisches
Allegro interessieren!
#######################################
Da ich "chinesische" Allegro-Datenbanken utf-8-codiert fahren wollte, fehlte mir eine Konkordanz "UTF-8 - Entitätszahl (Unicode)
- GB2312 - Big5".
An Zeichen-Datenbanken gibt es seit 2001 auf dem Braunschweiger Allegro-ftp-Server unic.exe von Eversberg (Abschnitte des
unteren Unicode-Bereich) und cjkcodes.lzh von Helliwell (Oxford) (den CJK- Bereich abdeckend).
Bei der Anfertigung einer weiteren Zeichen-Datenbank leitete mich der Gedanke, deren Sätze als Sequenz-Definitionssätze (im
Sinne von Verlautbarung 164) nutzen zu können.
Die hier vorgelegte neue Datenbank von Zeichen ist sicher kein Endprodukt; das sieht man allein schon an der Tatsache, daß
sie beim Zeichen 128 beginnt, obwohl es mir ja zunächst nur um CJK-Zeichen ging. Aber andererseits schließe ich auch nicht
aus, daß diese Datenbank auch im "unteren" Bereich, also im Nicht-CJK-Bereich der Zeichen, in der Zukunft von Nutzen sein
kann.
Das Ergebnis, den derzeitigen Stand meiner Bemühungen, findet man unter
http://h-allers.de/runterlad/cjkcode.lzh
###
Wer es möchte oder wen es interessiert:
Die Datei herunterladen, in ein beliebig benanntes Unterverzeichnis von c:\allegro hinein auspacken, z.B. in c:\allegro\xyz, und
dann - falls z.B. c:\allegro\xyz Datenbankverzeichnis ist - aufrufen mit
c:\allegro\a99.exe c:\allegro\xyz\code.ini
und dann durch Reorganisation zu einer kompletten Datenbank werden lassen.
###
Die Register sind die folgenden:
Index 1: Unicode dezimal
Index 2: Unicode hexadezimal
Index 3: GB2312 hexadezimal
Index 4: Big5 hexadezimal
Zum Beispiel findet man das zweite chinesische Zeichen des Wortes "Beijing":
im Index 1 unter 20140
im Index 2 unter 4eac oder 4EAC
im Index 3 unter bea9 oder BEA9
im Index 4 unter a8ca oder A8CA
###
Der benutzte Font ist Arial Unicode MS.
###
Das Datensatzformat ist:
#00 Datensatz-Identifikationsnummer
#9A (Unicode und UTF-8)
Teilfeld d: Unicode dezimal
Teilfeld h: Unicode dezimal
Teilfeld u: Original-UTF-8-Zeichen
Teilfeld v: UTF-8 hexadezimal
Teilfeld w: UTF-8 dezimal
#9Aa (GB2312)
Teilfeld d: GB2312 dezimal
Teilfeld h: GB2312 hexadezimal
Teilfeld c: Original-GB2312-Zeichen
#9Ab (Big5)
Teilfeld d: Big5 dezimal
Teilfeld h: Big5 hexadezimal
Teilfeld c: Original-Big5-Zeichen
Mit besten Grüßen:
Heinrich Allers
allers at t-online.de * http://www.h-allers.de
Netztagebuch: http://heinrich-erlo-ger.blogspot.com/
Bitácora: http://heinrich-erlo-spa.blogspot.com/
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://bibservices.biblio.etc.tu-bs.de/pipermail/allegro/attachments/20090404/28af3b12/attachment.html>
Mehr Informationen über die Mailingliste Allegro