[Allegro] Indexparameter cat.api modernisieren?

Thomas Berger ThB at Gymel.com
Do Jul 22 17:02:07 CEST 2010


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Lieber Herr Eversberg,

>> Was ist "alles Wortgut"? Alle Felder, alle "bibliographischen" Felder, alle
>> Felder mit Transkriptionen aus der Vorlage? Sie hatten neulich ja erst
>> die Lucene-Indexierung vorgestellt, die ja die Trunkierungsmodi und
>> Distanzkennungen beherrscht, die man benoetigt, um solch eine Salat-Suche
>> noch beherrschbar zu machen. Der Weg geht m.W. aber ueber n-Gramm-Indizes
>> zur effizienten Vorauswahl nebst ausgefeilterer Volltextsuche in den gefundenen
>> Saetzen.
>>
> Erst mal nur schnell noch hierzu:
> Die Solr-Technik wollte ich hier nicht einbeziehen, denn wir können die
> nicht derartig integrieren, daß sie automatisch zum Standard gehört und,
> dem Nutzer unbewußt, mit installiert wird, so schön das auch wäre. Dazu
> sind nutzerseitig schon ein paar Hantierungen nötig, die wir zwar
> beschrieben haben, die aber gleichwohl nicht jedermanns Sache sind.
> Vor allem muß ein Server da sein, der eine IP-Nummer hat und auf
> dem Jetty läuft. Das geht wohl nicht in jeder Umgebung, in der mit
> allegro gearbeitet wird. Wer irgend kann, sollte sich aber damit
> befassen, besonders wenn man richtig große Datenmengen hat.

Schon klar.


> Anscheinend sollten wir doch, Ihre anderen Aussagen bedenkend,
> an eine separate Indexdatei denken. Die hätte den Vorzug, daß der
> Anwender dazu selber nichts Neues tun und wissen muß.

Wo Sie jrad sagen "denken": Ein alter Admin-Traum ist ja, solche
"orthogonalen" Erweiterungen (also hier: zusaetzliche, *unabhaengige*)
Schluessel ganz ohne zusaetzlichen Eingriff in das Monster cat.api
bewerkstelligen zu koennen. Bisherige Handreichungen sind ja vom
Kaliber "suchen Sie einen geeigneten Editor, bearbeiten Sie cat.api,
suchen Sie dafuer eine gute Stelle im Code aus und ermitteln eine
freie Sprungmarke, dann kopieren Sie den hier zitierten Code mutatis
mutandem ein" und daher nichts fuer ungeuebte.

Wie waere es mit folgendem Mechanismus (grob skizziert, auf Fuss- und
Hilfsabschnitte muss geachtet werden):
- - Nach dem Einlesen einer Parameterdatei wird geschaut, ob es noch
  weitere Dateien mit ~abgeleitetem~ Namen gibt (bzw. ein tolerantes
  Include-Statement bzw. eine "Ueber"-Parameterdatei listet mehrere
  einzulesende Dateien")
- - Diese weiteren Parameterdateien - sofern vorhanden! - werden
  eingelesen, dabei werden allerdings globale Sprungmarken- und
  Unterprogramm-Konflikte automatisch aufgeloest, d.h. hat die
  erste Datei eine Marke #-A und Spruenge ...+A und die zweite
  auch, wird das beim Einlesen auf irgendetwas freies umgesetzt.

Damit - behaupte ich - koennte man durch unmodifiziertes Kopieren
(evtl. aber unter anderem Namen bzw. durch Herstellung einer "Manifest-
Datei") einer kleinen und uebersichtlichen googleschlitz.api ins
Datenverzeichnis die von Ihnen angedachte Funktionalitaet herstellen:
Reindexieren und fertig: Keine der beinden Parameterdateien musste
angepasst werden.

[Ein Restrisiko von Konflikten bei Anwendervariablen bleibt, hier hat
man aber nur sehr wenige, die von Satz zu Satz erhalten bleiben sollen
(bei der Indexierung normalerweise gar keine!) und mit ca. 62*62
Namensmoeglichkeiten auch ein kleineres Risiko fuer Konflikte. Bei
max. 200 Sprungmarken, davon ca. 70 gut eingebbar ist das Risiko
ungleich hoeher)


viele Gruesse
Thomas Berger
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (Cygwin)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org/

iJwEAQECAAYFAkxIXW8ACgkQYhMlmJ6W47MAQAP/ePp5kVJsVS5nygx6e878QzWo
UC0YeIkWQd6Dn+Qaqb1hIe0lhijsdEGkXyrZKw1AsJ5UdDw9OitbvCa9BeYzBMeE
IeANxMTbBh0HstMuXQyG/NAl1GuG6a/xoWpvZ/JwZhSf1VRiQLdeJeR5HJIG/I+o
XQYcuz8XEtmS0sxpoJE=
=Oxdx
-----END PGP SIGNATURE-----



Mehr Informationen über die Mailingliste Allegro