[Allegro] Weitere Verbesserungen an Solr stehen bevor

Bernhard Eversberg ev at biblio.tu-bs.de
Mi Jun 2 15:46:38 CEST 2010


Michael Lackhoff schrieb:
> 
>> Das beschriebene Solr-Verfahren bedarf weiterer Verbesserungen.
>> Es stellte sich raus, daß bei einer Dateigröße oberhalb 32MB
>> (XML-Datei) Ende der Fahnenstange ist. Das läßt sich umgehen,
>> indem man mehrere Dateien macht, jede unter 32MB, und sie
>> hintereinander einmischen läßt. Das geht mit einem einzelnen Befehl,
> 
> Ich vermute, Sie bekommen Probleme mit dem Arbeitsspeicher?
> Auf heutigen Maschinen kann man Solr ruhig von Anfang an etwas mehr
> mitgeben, z.B. starten mit:
> java -Xms1024M -Xmx1024M -jar start.jar
> 
Ja, kann man auch, nur würde das beim VK auch nicht langen.
Wir wollen aber auf jeden Fall für den Anfang mit so wenig
Herumschrauberei auskommen wie nur irgend möglich. Zum einen,
weil das ja alles dokumentiert und in der Nachnutzung dann wieder
beachtet werden muß, zum andern, weil es ja eh haufenweise Sachen
gibt, die man einstellen könnte, und da warten wir lieber ab, was
man denn unabdingbar braucht. Von so einem Minimum aus sich weiter
zu diversifizieren, das bleibt dann jedem unbenommen, ohne daß
wir schon ohne Not was präjudizieren. Der Anreiz ist doch größer, wenn
man am Anfang mit ganz geringem Aufwand ein Erfolgserlebnis hat.

> Fuer richtig grosse Datenmengen empfiehlt sich darueberhinaus autocommit
> einzustellen, damit laufen bei mir dann auch mal ein paar Millionen
> Datensaetze ohne Probleme durch (bei mir ist autocommit auf 10000 Saetze
> eingestellt).
Und wo stellt man das ein?

>> fertig, nächste Woche kommt sie. Wir geben das erst frei,
>> wenn die VK-Datenbank, das sind einige GB, anstandslos
>> durchläuft.
> 
> Wie gesagt, das sollte unnoetig sein.
> 
Braucht aber, wie sich zeigt, kaum mehr Zeit und macht die einzelnen
Dateien handlicher. Das ist auch gut, wenn's denn mal kracht, denn
dann muß man sich die Daten anschauen...

> Es gibt auch einen deutschen Stemmer, ein Beispiel fuer die Einbindung
> steht im Solr Wiki. Aber ganz ohne zu arbeiten hat natuerlich auch
> Argumente fuer sich.
> 
Eben, zumal im Sinne des Minimalkonsens. Wir mußten erleben, daß bei
ganz einfachen Abfragen total unplausible Resultate rauskamen.
Deutsches Stemming würde ja dann wieder mit englischen Titeln nicht
gehen, und davon hat ja auch jeder haufenweise.


B.Eversberg





Mehr Informationen über die Mailingliste Allegro