[Allegro] PHPAC-Doku aktualisiert

Thomas Berger ThB at Gymel.com
Di Nov 9 11:16:33 CET 2010


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Am 09.11.2010 10:25, schrieb Fischer, Thomas:

> Das wird es wohl sein, ich hatte versucht, dem ö denselben Sortierwert wie dem o zuzuweisen.

Sie koennen alles ab "p" um eins verschieben, dann ist "ganz nah" bei
"o" Platz fuer "ö".

> Hintergrund ist, dass in unserer Datenbank für Finnougristik die deutsche
> Auflösung der Art ö -> oe nicht angemessen und auch die Einsortierung aller
> Umlaute (groß und klein) jenseits von z nicht wünschenswert ist.

Sie sind doch eine Bibliothek? Nach RAK muessen sogar o's mit
Doppelakut wie oe einsortiert werden ;-)


> Natürlich gibt es in der Datenbank neben ungarischen auch deutsche und
> englische Wörter, auch Begriffe aus den baltischen Sprachen kommen vor.
> Indexierung der Art: wenn deutsch dann ö -> oe, wenn ungarisch dann ö -> o wären
> eventuell sinnvoll, ich wüsste aber nicht, wie sie zu realisieren und die
> Suchfunktionen dann einzurichten wären. Getrennte Register für
> ungarische/baltische Begriffe einerseits und deutsche/englische andererseits?

lateinische Zitate in franzoesischen Sachtiteln oder finnische
Vornamen naturalisierter Daenen im englischen Abstrakt eines
bulgarischen Aufsatzes in einem usbekischen Sammelband: Viel
Spass beim Taggen...

>> Wir empfehlen, im Index auf Sonderzeichen, also auch
>> Sonderbuchstaben, weitestgehend zu verzichten. Sinnvoll ist
>> es wohl nur, wenn man eine rein türkische, polnische,
>> ukrainische oder sonstig slawische Datenbank machen will. Bei
>> gemischten Inhalten wird's fragwürdig, daran könnte sogar
>> Unicode pur, inkl. "collation rules", nichts ändern.
> 
> Für Vorschläge für unsere Situation wäre ich sehr dankbar.

Solange man keine hinreichend differenzierte Sprachinformation
hat, wird man sich fuer eine Kollationierung entscheiden
muessen, also "ö" zu "o" oder "oe" (oder doppeln). Und ebenfalls
"Ö" zu "o" oder "oe".

Und wenn man die Sprachinformation haette, wuerde man sie
im Zweifelsfall auch nicht nutzen, sondern die Sprachinformation
des Benutzerbrowsers aus werten (in der Hoffnung, dass sie
seine Praeferenzen spiegelt): Ist der Browser auf deutsch
eingestellt, wird auf "oe" kollationiert, sonst auf "o" (Das
geht natuerlich mit allegro nicht). Ich behaupte, dass es kein
Benutzer goutieren wuerde, wenn die "ö"s linguistisch korrekt
an zwei Stellen einsortiert waeren ("Kennen Sie Caesar?"), es
sei denn, er bekommt sie stets gemeinsam gezeigt...

Ich gehe normalerweise wie folgt vor, indem ich die "Register-
maskerade" benutze:

die stark normierte Zeichenkette an den Anfang des Registereintrags,
danach ein eindeutiges Trennzeichen und dann der ueberhaupt nicht
umcodierte Begriff.

viele Gruesse
Thomas Berger
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (Cygwin)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org/

iJwEAQECAAYFAkzZH4EACgkQYhMlmJ6W47PHZAP/dcoKZrGQ4UipRD8ZpKv9UKmN
sBu8FXXKMXWajRvSVWUdLDv9D76LuevJwVpHwBDWlHSq0m4+Jv1DV8ljtMi37EGl
bVvOC22XyeOCgw3KGQaA16ebLfEut5r6dKjo7qh1m5zx18mDZ0kaHCzoU3pKBHS7
thSKRfL1mEYF656iCMg=
=fIP3
-----END PGP SIGNATURE-----



Mehr Informationen über die Mailingliste Allegro