[Allegro] CJK-Zeichen-Datenbank

Sa Apr 4 02:38:46 CEST 2009

#######################################
Nur für die Kolleginnen und Kollegen, die sich für
chinesisch/japanisch/koreanisches
Allegro interessieren!
#######################################

Da ich "chinesische" Allegro-Datenbanken utf-8-codiert fahren wollte, fehlte mir eine Konkordanz "UTF-8 - Entitätszahl (Unicode) 
- GB2312 - Big5".

An Zeichen-Datenbanken gibt es seit 2001 auf dem Braunschweiger Allegro-ftp-Server unic.exe von Eversberg (Abschnitte des 
unteren Unicode-Bereich) und cjkcodes.lzh von Helliwell (Oxford) (den CJK- Bereich abdeckend).

Bei der Anfertigung einer weiteren Zeichen-Datenbank leitete mich der Gedanke, deren Sätze als Sequenz-Definitionssätze (im 
Sinne von Verlautbarung 164) nutzen zu können.

Die hier vorgelegte neue Datenbank von Zeichen ist sicher kein Endprodukt; das sieht man allein schon an der Tatsache, daß 
sie beim Zeichen 128 beginnt, obwohl es mir ja zunächst nur um CJK-Zeichen ging. Aber andererseits schließe ich auch nicht 
aus, daß diese Datenbank auch im "unteren" Bereich, also im Nicht-CJK-Bereich der Zeichen, in der Zukunft von Nutzen sein 
kann.

Das Ergebnis, den derzeitigen Stand meiner Bemühungen, findet man unter

http://h-allers.de/runterlad/cjkcode.lzh

###

Wer es möchte oder wen es interessiert:

Die Datei herunterladen, in ein beliebig benanntes Unterverzeichnis von c:\allegro hinein auspacken, z.B. in c:\allegro\xyz, und 
dann - falls z.B. c:\allegro\xyz Datenbankverzeichnis ist - aufrufen mit

c:\allegro\a99.exe c:\allegro\xyz\code.ini

und dann durch Reorganisation zu einer kompletten Datenbank werden lassen.

###

Die Register sind die folgenden:

Index 1: Unicode dezimal
Index 2: Unicode hexadezimal
Index 3: GB2312 hexadezimal
Index 4: Big5 hexadezimal

Zum Beispiel findet man das zweite chinesische Zeichen des Wortes "Beijing":

im Index 1 unter 20140
im Index 2 unter 4eac oder 4EAC
im Index 3 unter bea9 oder BEA9
im Index 4 unter a8ca oder A8CA

###

Der benutzte Font ist Arial Unicode MS.

###

Das Datensatzformat ist:

#00 Datensatz-Identifikationsnummer

#9A (Unicode und UTF-8)
Teilfeld d: Unicode dezimal
Teilfeld h: Unicode dezimal
Teilfeld u: Original-UTF-8-Zeichen
Teilfeld v: UTF-8 hexadezimal
Teilfeld w: UTF-8 dezimal

#9Aa (GB2312)
Teilfeld d: GB2312 dezimal
Teilfeld h: GB2312 hexadezimal
Teilfeld c: Original-GB2312-Zeichen

#9Ab (Big5)
Teilfeld d: Big5 dezimal
Teilfeld h: Big5 hexadezimal
Teilfeld c: Original-Big5-Zeichen

Mit besten Grüßen:

Heinrich Allers
allers at t-online.de * http://www.h-allers.de
Netztagebuch: http://heinrich-erlo-ger.blogspot.com/
Bitácora: http://heinrich-erlo-spa.blogspot.com/
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://bibservices.biblio.etc.tu-bs.de/pipermail/allegro/attachments/20090404/28af3b12/attachment.html>