[Allegro] UTF-8 und RTF
Fischer, Thomas
fischer at sub.uni-goettingen.de
Do Mär 26 14:39:38 CET 2015
Lieber Herr Eversberg,
bei dem Versuch, Sätze einer Datenbank in RTF zu exportieren, bin ich auf verschiedene Probleme gestoßen, die ich lieber in verschiedenen Mails beschreiben möchte, um den Überblick zu bewahren.
Zum ersten: Während für die Präsentation innerhalb von A99 durch Einsatz der Kennung \urtf1 eine Umwandlung von UTF-8 in die RTF-Kodierung nicht nötig ist, muss für den Export umkodiert werden (nur WordPad versteht wohl \urtf1).
Mir ist nicht klar, welche Tabelle dafür zuständig wäre.
Es gibt
1. DU-RTF.APT : Unicode UTF-8 -> RTF
die aber ziemlich radikal diakritische Zeichen entfernt.
2. utf-rtf.apt : Unicode -> RTF (f. a99-Anzeige, falls intern UTF-8 !!!)
die aber auch recht radikal reduziert:
P 196 134 C [0106] -- Ć
P 196 135 "\u263?" [0107] -- ć
P 196 136 C [0108] -- Ĉ
P 196 137 c [0109] -- ĉ
P 196 138 C [010A] -- Ċ
P 196 139 c [010B] -- ċ
P 196 140 C [010C] -- Č
P 196 141 c [010D] -- č
Ich habe mir jetzt mit
3. utf8toRTF. at pt UTF-8 --> RTF-Kodierung
eine eigene Tabelle erzeugt, die Diakritika erhält:
P 196 134 "\u262?" -- >Ć<
P 196 135 "\u263?" -- >ć<
P 196 136 "\u264?" -- >Ĉ<
P 196 137 "\u265?" -- >ĉ<
P 196 138 "\u266?" -- >Ċ<
P 196 139 "\u267?" -- >ċ<
P 196 140 "\u268?" -- >Č<
P 196 141 "\u269?" -- >č<
Mir ist jetzt nicht klar, wofür die Allegro-Tabellen genutzt werden (sollen), warum (ob?) es keine zeichenerhaltende Präsentationstabelle gibt und ob gegebenenfalls Interesse an meiner Tabelle besteht.
Nebenbei ist mir noch aufgefallen, dass die Informationen zu den P/Q-Tabellen (in help/unicode.rtf) etwas knapp sind:
P zzz yyy xxx abc
mit zzz yyy xxx = Dezimalcodes des UTF-8-Zeichenwertes
abc = Was dafür einzusetzen ist (direkte Zeichen)
In dem Ersetzungstext werden Zahlen als Zeichen interpretiert (zumindest im ISO-Latin-1 Bereich), so dass
P 196 134 \u262?
nicht funktioniert (liefert \uĆ?), ebenso wenig wie
P 196 134 '\u262?'
da werden einfach die einfachen Anführungszeichen zusätzlich ausgegeben ('\uĆ?').
Nur
P 196 134 "\u262?"
liefert das Gewünschte (\u262?).
Könnte diese Information noch ergänzt werden? Oder steht das irgendwo? (codier.rtf ist allerdings noch dünner in dieser Hinsicht)
In iu.apt gibt es zu P/Q den Hinweis:
Syntax:
p zzz yyy xxx Zeichen zzz yyy xxx = Dezimalzahlen,
xxx fehlt, wenn zzz<224
p zyx Zeichen zyx = UTF-8 Originalcodes, x fehlt wenn z<224
Referenz: siehe Datei ucodes.txt
der neben den falschen (kleinen!) p mangels ucodes.txt aber auch zu nichts führt.
Mit freundlichen Grüßen
Thomas Fischer
Mehr Informationen über die Mailingliste Allegro