[Allegro] Feature request: Variable Trunkierungen in acon

Michael Lackhoff michael at lackhoff.de
Do Okt 4 08:14:12 CEST 2012


Lieber Herr Berger,

> Das sind meine vorlaeufigen Ueberlegungen zu moeglicherweise sinnvollen
> Anforderungen an "variable Trunkierung", die ich hiermit zur Diskussion
> stellen moechte.

Ich will Ihren Feature Request nicht unterwandern, denke aber doch, dass
es nicht der richtige Weg ist. Letztlich steckt doch hinter der
variablen Trunkierung das Wissen um eine syntaktische Bedeutung des
Trenners (', ' als Trenner zwischen Nachname und Vorname, ' ; ' als
Trenner zwischen Serie und Zaehlung usw.) und dann finde ich es eben
sinnvoller, von vornherein z.B. einen separaten Serientitel-Index
aufzubauen, oder von mir aus auch noch zwei getrennte, einmal mit,
einmal ohne Untereihe.
Natuerlich hat ein solches Vorgehen Nachteile (mehr Platzbedarf, weniger
Flexibilitaet), aber eben auch ganz klare Vorteile. Ich kann bei der
Indexierung oder schon im Vorfeld der Datenaufbereitung alles Wissen,
das ueber die Daten verfuegbar ist nutzen, um die Indexeintraege
sinnvoll zu fuellen. Zur Suchzeit habe ich diese Moeglichkeiten nicht
mehr und habe eben nur z.B. das Semikolon und bin evtl. Mehrdeutigkeiten
hilflos ausgeliefert.

Zugegeben die Ueberlegungen kommen urspruenglich aus einem (eben nur
scheinbaren) Mangel, auf den Herr Eversberg hingewiesen hat, als er
herausstellte, dass die Indexe in Solr keine variable Trunkierung haben.
Daraufhin habe ich mir mal genauer angesehen, wofuer ich die ueberhaupt
brauchen wuerde und dabei hat sich eben gezeigt, dass es ueblicherweise
nicht um ein beliebiges Abschneiden irgendwo im String geht, sondern
darum, ein klar umgrenztes Element aus der Zeichenwurst zu extrahieren.
Und da bin ich zu dem Schluss gekommen, dass es doch dann viel
guenstiger ist, schon vor der Zeichenwurst anzusetzen.

Natuerlich wuerde Ihr Request das Toolarsenal sinnvoll erweitern, z.B.
fuer Faelle, wo aus irgendwelchen Gruenden kein kompletter Neuaufbau mit
angepasster Indexierung sinnvoll ist, trotzdem halte ich es wie gesagt
fuer eine Kruecke, vergleichbar mit dem Parsen von XML mittels Regular
Expressions statt mit einem "richtigen" XML-Parser.

Viele Gruesse
Michael Lackhoff



Mehr Informationen über die Mailingliste Allegro