Kategorienlaenge

Thomas Berger ThB.com at t-online.de
Fr Mai 15 19:40:12 CEST 1998


Lieber Herr Staecker,

> Import keine Probleme mehr zu geben. Alles klappte auch ganz hervorragend,
> bis auf die eigentlichen Texte zu den Personen. Die waren naehmlich z.T.
> einige Seiten lang und passten nicht in eine Kategorie. Manche wurden beim

ich habe vor einigen Jahren probeweise einmal Lexikonartikel
mit biographischen Angaben (IKD) importiert und bin dabei
auf dieselben Probleme gestossen:

Die maximale Kategorielaenge ist etwa 5000 Zeichen, was
IMPORT angeht (wenn Sie die Texte mit Allegro nachverarbeiten 
wollen, sollten die Kategorien evtl. kuerzer sein).
Nehmen Sie aber eine frei wiederholbare Kategorie, so kommen
Sie bei geschickter Aufteilung auf etwa 200*5000 Zeichen,
also 1MB, was weit mehr ist als die pro Datensatz maximal
moeglichen ungefaehr 20- 30000 Zeichen.

Bei den damaligen Daten war es mir moeglich, Absaetze im
Text rekonstruieren zu koennen, diese habe ich dann beim 
Import als Bruchstelle fuer die Belegung von Mehrfachkategorien
genommen. Gluecklicherweise war keiner der Absaetze laenger
als 5000 Zeichen (ca. 2,5 A4-Seiten).

_Beliebige_ Daten muessten Sie evtl. erst mit externen Tools
vorverarbeiten, damit keine zu langen Kategorien entstehen.

Eine andere Loesung besteht darin, die Volltexte getrennt zu 
lassen und so abzulegen, dass Sie sie aus dem Datensatz heraus 
mit den Graphik-Modulen APACG und PRESTOG per Tastendruck
zugreifbar machen.

Apropos: Versuchen Sie nicht, die Lexikonartikel zu verstichworten,
immerhin gibt es das Limit von 500 Schluesseln pro Aufnahme,
bei mehr Schluesseln bricht Ihnen alles zusammen.

Falls das ein Thema ist, gibt es auch hier verschiedene 
Moeglichkeiten, weiterzumachen:

1.) Den Text in groesseren Einheiten in Untersaetze verlagern,
    unter Beruecksichtigung der SR-Funktionalitaeten haben
    Sie dann zwar keine "richtigen" booleschen Operatoren mehr
    aber zumindest eine "near"-Suche.

2.) Per Parametrierung und Stoppwortliste dafuer sorgen, dass
    nur "signifikante" Worte indexiert werden, das sollten
    dann weniger als 500 sein.

3.) (boeser HACK!) Wenn Sie nicht auf die Live-Bearbeitung
    der Volltexte angewesen sind, koennen Sie mit einem
    externen Programm die Verstichwortung (auch externer
    Dokumente) vornehmen und II-Zwischendateien fuer QRIX
    generieren. Die mischen Sie dann in die Datenbank ein
    und umschiffen so das Limit (habe ich mal fuer mein
    e-mail-Archiv gemacht und auch fuer Volltexte von 
    Buechern).

HTH
Thomas Berger





Mehr Informationen über die Mailingliste Allegro