[Allegro] CJK-Zeichen-Datenbank verbessert

Heinrich Allers allers at t-online.de
Di Apr 27 02:32:42 CEST 2010


Erweiterte und verbesserte Neuauflage einer alten Nachricht (vom 4.4.2009):
http://sun250.biblio.etc.tu-bs.de/pipermail/allegro/2009-April/029421.html 


#######################################
Nur für die Kolleginnen und Kollegen, die sich für
chinesisch/japanisch/koreanisches
Allegro interessieren!
#######################################

Da ich "chinesische" Allegro-Datenbanken utf-8-codiert fahren wollte, fehlte mir eine Konkordanz "UTF-8 - 
Entitätszahl (Unicode) - GB2312 - Big5 - SHIFT-JIS (jap.)". An Zeichen-Datenbanken gibt es seit 2001 auf 
dem Braunschweiger Allegro-ftp-Server unic.exe von Eversberg (Abschnitte des unteren Unicode-
Bereichs) und cjkcodes.lzh von Helliwell (Oxford) (den CJK- Bereich abdeckend). 

Bei der Anfertigung einer weiteren Zeichen-Datenbank im April 2009 leitete mich der Gedanke, deren 
Sätze als Sequenz-Definitionssätze (im Sinne von Verlautbarung 164) nutzen zu können.   

Das Ergebnis der jetzigen Überarbeitung dieser Datenbank findet man unter

http://h-allers.de/runterlad/cjkcode.lzh

###
 
Wer es möchte oder wen es interessiert:

Die Datei herunterladen, in ein beliebig benanntes Unterverzeichnis von c:\allegro hinein 
auspacken, z.B. in c:\allegro\xyz, und dann - falls z.B. c:\allegro\xyz Datenbankverzeichnis ist - 
aufrufen mit
 
c:\allegro\a99.exe c:\allegro\xyz\code.ini
 
und dann durch Reorganisation zu einer kompletten Datenbank werden lassen.
 
###

Die Register sind die folgenden:
 
Index 1: Unicode dezimal
Index 2: Unicode (hexadezimal)
Index 3: GB2312 (hexadez. und dezimal)
Index 4: Big5 (hexadez. und dezimal)
Index 5: SHIFT-JIS / jap. (hexadez. und dezimal)
Index 6: UTF-8 (hexadez. und dezimal)

Zum Beispiel findet man das zweite chinesische Zeichen des Wortes "Beijing":
 
im Index 1 unter 20140
im Index 2 unter 4eac oder 4EAC
im Index 3 unter bea9 oder BEA9
im Index 4 unter a8ca oder A8CA

###
 
Der benutzte Font ist Arial Unicode MS.
 
###
 
Das Datensatzformat ist:
 
#00 Datensatz-Identifikationsnummer
 
#9A (Unicode und UTF-8)
   Teilfeld d: Unicode dezimal
   Teilfeld h: Unicode dezimal
   Teilfeld u: Original-UTF-8-Zeichen
   Teilfeld v: UTF-8 hexadezimal
   Teilfeld w: UTF-8 dezimal

#9Aa (GB2312)
   Teilfeld d: GB2312 dezimal
   Teilfeld h: GB2312 hexadezimal
   Teilfeld c: Original-GB2312-Zeichen
 
#9Ab (Big5)
   Teilfeld d: Big5 dezimal
   Teilfeld h: Big5 hexadezimal
   Teilfeld c: Original-Big5-Zeichen

#9Aj (SHIFT-JIS / jap.)
   Teilfeld d: SHIFT-JIS dezimal
   Teilfeld h: SHIFT-JIS hexadezimal
   Teilfeld c: Original-SHIFT-JIS-Zeichen

#9An  Name des Zeichens (soweit er aus der Datenbank UNIC auszulesen ist).


Mit besten Grüßen:
 
Heinrich Allers

allers at t-online.de * http://www.h-allers.de
Netztagebuch: http://heinrich-erlo-ger.blogspot.com/
Bitácora: http://heinrich-erlo-spa.blogspot.com/
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://bibservices.biblio.etc.tu-bs.de/pipermail/allegro/attachments/20100427/5f8f6042/attachment.html>


Mehr Informationen über die Mailingliste Allegro