[Allegro] Weitere Verbesserungen an Solr stehen bevor

Michael Lackhoff michael at lackhoff.de
Mi Jun 2 15:34:22 CEST 2010


On 02.06.2010 15:08 Bernhard Eversberg wrote:

> Das beschriebene Solr-Verfahren bedarf weiterer Verbesserungen.
> Es stellte sich raus, daß bei einer Dateigröße oberhalb 32MB
> (XML-Datei) Ende der Fahnenstange ist. Das läßt sich umgehen,
> indem man mehrere Dateien macht, jede unter 32MB, und sie
> hintereinander einmischen läßt. Das geht mit einem einzelnen Befehl,

Ich vermute, Sie bekommen Probleme mit dem Arbeitsspeicher?
Auf heutigen Maschinen kann man Solr ruhig von Anfang an etwas mehr
mitgeben, z.B. starten mit:
java -Xms1024M -Xmx1024M -jar start.jar

Fuer richtig grosse Datenmengen empfiehlt sich darueberhinaus autocommit
einzustellen, damit laufen bei mir dann auch mal ein paar Millionen
Datensaetze ohne Probleme durch (bei mir ist autocommit auf 10000 Saetze
eingestellt).

> ist also nicht aufwendiger in der Durchführung. Aber das
> automatische Herstellen von mehreren Dateien, das müssen wir
> erst noch exporttechnisch realisieren. Lösung ist jetzt fast
> fertig, nächste Woche kommt sie. Wir geben das erst frei,
> wenn die VK-Datenbank, das sind einige GB, anstandslos
> durchläuft.

Wie gesagt, das sollte unnoetig sein.

> Es fiel auch auf, daß das Trunkieren wegen einer Solr-Technik
> namens "stemming" (Wortstämme automatisch bestimmen) wenig
> zuverlässig ist, aber man kann das abschalten. (Denn es ist
> natürlich auf Englisch getrimmt.)

Es gibt auch einen deutschen Stemmer, ein Beispiel fuer die Einbindung
steht im Solr Wiki. Aber ganz ohne zu arbeiten hat natuerlich auch
Argumente fuer sich.

Viele Gruesse
Michael Lackhoff



Mehr Informationen über die Mailingliste Allegro