betrifft mehr das private projekt "imdb"

Klaus Lehmann lehmann_klaus at t-online.de
Mi Feb 5 07:40:42 CET 2003


On Sun, 02 Feb 2003 23:05:09 +0100, Thomas Berger wrote:

guten tag herr berger und herr allers
(ich antworte mal ihnen beiden in dieser einen mail)





kl>"ANSI-Zeichensatz" ist etwas, was es in der Form eigentlich
kl>nicht gibt, man (=Microsoft?) meint mit "ANSI-Zeichensatz"
kl>normalerweise den 8-bit Zeichensatz CP1252, dies ist seit
kl>Windows 3. allerdings einige Male erweitert worden, ich

lieber herr berger
ich danke ihnen recht herzlich für ihre ausführungen, sie rücken bei mir einiges
zurecht, und lassen ebenso einiges klarer werden (s.u.)


kl>Alle fuenf Zeichensaetze stimmen in den Zeichen 32-127
kl>ueberein.
ja, wenigstens diese kleinstmenge haben alle gemeinsam, es wäre schlimm, wenn nicht...



kl>nach allegro-OstWest. Sie ist daher ziemlich ungeeignet dafuer, 
kl>Texte die man anderswo gefunden hat, nach allegro-OstWest zu
kl>uebersetzen, denn diese Texte sind naturgemaess nie allegro-Windows
kl>("ANSI") noch CP1252 ("ANSI"), sondern typischerweise ISO 8859-1 
kl>(das ist allerdings eine Untermenge von CP1252 und bestimmt
kl>nennt irgendwer das auch "ANSI").
letzteres wird für mich wichtig sein, um dann eine gefundene tabelle zu identifizieren.
habe gesehen, daß es doch einige zeichenUMsetzungen gibt, die mir nicht logisch erscheinen, oder
auch die so keine entsprechung haben, in anderen tabellen (ich benutz[t]e hauptsächlich die große
tabelle, die am allegro-c=handbuch abgedruckt ist. dank der konnte ich so ca 66% der für mich
fremden zeichen abbilden.


kl>Die Tabelle, die Sie suchen, finden Sie vermutlich unter
kl>http://www.gymel.com/charsets/crosstabs.html
!danke! für den hinweis (hatte schon nach den tabs gesucht, aber auf die schnelle nicht gefunden :-)



für den interessierten allegrologen habe ich mal ein paar textstücke als zip[movies.zip] beigefügt; die 
liste möge mir verzeihen, sie nehmen zum Glück nicht allzuviel Platz ein. 5kb ist ok, oder?


(ich find das ganz toll, daß SIE hier so mitmachen, und mir
wertvolle anregungen geben; hatte nicht gedacht, daß das thema film so viele liebhaber hat... ;-)
DANKE!!!!)


hier mal meine jetzige (unvollständige!) umwandlungsliste. ca 33% der zeichen fehler mir. nur um es
deutlich zu sagen, dazu benötigt man die beiden anhänge (in der zip datei: imdb.zip)
;!muster!
;\000 = \032  /* null             becomes space
;\161 = \
;\178 = \       /* ist nicht besetzt in allegroliste
;\189 = \       /*  ist nicht besetzt! in allegro-liste
;\193 = \       /* ist nicht besetzt

\251 = \150    /* u zeichen?
\250 = \163    /* u zeichen
\252 = \129    /* ü
\248 = \237    /* dänisch o
\247 = \223    /* unterstrich ????
\246 = \148    /* ö
\243 = \162    /* o zeichen türk?
\241 = \164    /* n zeichen
\240 = \167    /* c zeichen ?
\237 = \161    /* i zeichen
\233 = \130    /* opera das 'e darin oder so
\232 = \138    /* e zeichen
\231 = \135    /* c zeichen
\229 = \134    /* a zeichen
\228 = \132    /* ä
\225 = \160    /* ein a zeichen?
\224 = \133    /* a zeichen
\223 = \225    /* ß
\220 = \154    /* Ü
\218 = \243    /* i zeichen
\216 = \215    /* dänisch o zeichen
\214 = \153    /* groß Ö ?
\212 = \251    /* z zeichen?
\211 = \246    /* o zeichen
\206 = \240    /* c zeichen
\205 = \241    /* c zeichen
\201 = \144    /* e zeichen
\199 = \128    /* c zeichen
\198 = \146    /* ae zeichen
\197 = \143    /* a zeichen
\196 = \142    /* grosses Ä umlaut
\194 = \168    /* r zeichen
\192 = \247    /* s zeichen
\191 = \212    /* ?????
\186 = \207    /* grad zeichen bei "32 ringel"
\176 = \248    /* grad zeichen bei grad
\154 = \172    /* s zeichen


im zip-anhang eine mini ausgabe von: movies.lst und movies.alg
movies.lst ist ein auszug aus der originalliste (13mb); bitte beachten sie die vermeintlichen
leerzeichen! UND das ist noch eine einfache struktur!; mein ergebnis liegt auch dabei: movies.alg
(da ist alles drin: kategoriebezeichnung, spez.leerzeichen, grinsemännchen am anfang.
ich habe ihnen mal die beiden dateien beigefügt, um mal die problematik der zeichenvertauschung zu
dokumentierung. Sie finden hier sehr viele "fremde" Sonderzeichen, wofür ich bereits 66%
ersetzungen gefunden habe. es sind einige sonderzeichen zu sehen, die nicht identifiziert
konnten..... wage kaum zu fragen: welche liste ist es denn, herr berger?



h. allers schrieb auch noch:
kl<> mit der movies.list (aus dem projekt imdb) habe ich mal heute
kl<> angefangen, und sie schon in eine alg-datei konvertieren können.
kl<Das ist doch schon etwas!

kl<> allerdings nicht mit allegro-mitteln; ich benutze dazu externe tools.
kl<Macht nichts; schräge Strukturen des zu konvertierenden Materials verlangen so etwas 
kl<gelegentlich.
mit import.ex eund aim's wollt'e ich nicht ran; da nahme ich lieber tools, die mir vertraut sind ;-)

EINE frage: wer kennt ein "schneide"-tool? gibt es ein (dos?)tool, mit welchem man via batsch eben z.b. die 
ersten 30 zeilen und die letzten 30 zeilen wegschnibbseln kann? das toll sollte keine angst vor großen 
textdateien haben (max 100MB); vielleicht kann man auch sowas mit import machen. da ist doch was mit header 
ignorieren und wenn er denn keine bearbeitung des bodies macht, und das ende auch wegschneidet, ist das 
schon mal ein lösungsansatz. (?) aber ein externes tool wäre mir lieber ;-)  [der schöpfer der allegrologie 
möge mir verzeihen.... excorcismus jetzt?]



kl<> die zeichenumwandlung ist auch zu 66% abgeschlossen, es gibt noch ca
kl<> 33% an unlogischen zeichen, die nicht korrekt nach asci umgesetzt
kl<> worden sind.
kl<Was heißt das ganz konkret? Inwiefern sind diese Zeichen "unlogisch"? Oder sind es nicht 
kl<vielmehr Zeichen, die keine Entsprechungen im Ostwest-Zeichensatz finden?

da ich keine hinweise in den original-imdb.listen finde: also aussagen über den verwendeten zeichensatz!, 
muss ich bei vielem raten. man sicher auch vorhandene transformerlisten (z.b. die o.g. apt) (oder noch 
besser: die listen von h. berger, die mir leider noch sehr unverständlich sind... ;-) benutzen, aber wie 
gesagt: ich muss zur zeit raten. der gezippte auszug aus movies-list ist sehr schön, er enthält viele 
skandinavische titel, da bin ich zum glück auch ein bisschen zuhaus. sowie einige russisch/slawische titel. 
da hilft einem auch das russisch-abi ;-) ist zwar lange her... ;-)

kl<> von der endlichen allegro-datenbank bin ich lichtjahre
kl<> ewntfernt! ;-)
kl<Das liegt aber doch nicht an Allegro?
;-) nein, sondern an mir!



viele grüße alsweilen
ihr
k.l.

-
Klaus Lehmann
eMail: lehmann_klaus at t-online.de
phone: 030-8950 3156; mobil 0171-953 7843
*** Allegro-C-Dienstleistungen: 
Datenbankbereinigungen, safer shells, komplette 
Arbeitsumgebungen, Fehlerindices, Fremddatenimport/Export;
Batchprogrammierung & andere Automatismen
Admin Netware/WinNT/W2K/VÖBB Friedrichshain-Kreuzberg;
*** Our best ideas are born at home (New Freedom Data Center 1995) ***

-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : movies.zip
Dateityp    : application/octet-stream
Dateigröße  : 4559 bytes
Beschreibung: nicht verfügbar
URL         : <http://bibservices.biblio.etc.tu-bs.de/pipermail/allegro/attachments/20030205/6d693ca8/attachment.obj>


Mehr Informationen über die Mailingliste Allegro