[Allegro] Volltextsuche: Zurück auf Start
Fischer, Thomas
fischer at sub.uni-goettingen.de
Mi Jun 14 17:33:53 CEST 2017
Lieber Herr Eversberg, liebe Liste.
noch einmal zur Volltextsuche.
> Am 12.06.2017 um 10:30 schrieb Fischer, Thomas <fischer at sub.uni-goettingen.de>:
>
>>> Warum findet
>>> _#20[^:]*$
>>> in der Demodatenbank den Datensatz
>>>
>>> #00 816231
>>> #20 Shakespeare-Rezeption : Die Diskussion um Shakespeare in Deutschland
>>> #30aan
>>> …
>>> ?
Das ist jetzt geklärt. Diese Suche
> _#20[^:]*$
>
> soll nach Einträgen suchen, in denen *kein* Doppelpunkt im Feld #20 vorkommt.
> #20 ist dabei die Nummer des Feldes,
> [^:] heißt: alles bis auf : ("[^c-f] bedeutet Negation")
> * beliebig viele davon
> $ sucht das Feldende ("Dollar an letzter Position: Feldende")
> und das _ am Anfang soll dafür sorgen, dass keine Umkodierung stattfindet.
findet tatsächlich das Gewünschte, nur ist die Datenstruktur in der Demodatenbank komplexer als ich gedacht hatte.
Es gibt dort Unterdatensätze, die zum selben Satz gehören, und bei diesem Beispiel gibt es davon 2, z.B.
#20 Ausgewählte Texte von 1741 bis 1788
und das ist das Feld, das von dieser Suche wohl gefunden wurde.
(Ich hatte nicht bedacht, dass ein Datensatz mehr als ein Feld #20 haben kann.)
>>> Was findet der Ausdruck "\n", warum liefert z.B.
>>> _#20[^:\n]*$
>>> in der Demodatenbank erheblich weniger Treffer als die obige Suche?
Diese Suche scheitert, weil
"…die Kombination \n setzen; sie steht für "Feldende"…"
offenbar innerhalb der eckigen Klammern nicht gilt: es wird nicht \n wie Feldende ausgeschlossen, sondern einfach n.
Also: \n innerhalb eckiger Klammern findet n.
Klarerweise werden dann weniger Datensätze getroffen.
Leider bin ich nach dieser Klärung wieder auf mein Ausgangsproblem zurückgeworfen (Brief vom 19. Mai 2017 um 17:39 Uhr):
Die Suche
_#12[ abc][^,]*$
findet in einer meiner Datenbanken den unten angegebenen Datensatz, in dem kein #12 präsent ist, nicht einmal "12".
Warum?
(Die Suche mit _#12[ abc][^,\n]*$ ist ja geklärt.)
Bei der Suche treten zunächst 7 solcher fehlerhaften Treffer auf, die folgenden sind korrekt.
Die einfache Suche nach
_#12
findet auch Datensätze ohne #12, z.B. den unten angegebenen. Das hat also nichts mit den regulären Ausdrücken zu tun.
Mit besten Grüßen
Thomas Fischer
#00 000056
#10 Forestworld
#13 ForestWorld.com.inc: Colchester, US (VT) <webmaster at forestworld.com>
#14 ForestWorld.com.Inc.: Colchester, US (VT)
#16 en
#17 US
#18 text/html; image/gif; image/jpeg
#19 forest products; forest industry; foresters; loggers; sawmills
#20 This site contains daily forest industry news from around the world, feature articles,conference listings, and other topical items of interest. Electronic source of information on the world's wood species, including Global Forestry Data, pictures of woods, and maps and internet directory of forest industry- related websites and a photogallery are the other topics of interest on this site.
#20xLast Update: 20000524; Clarity: **; Index: ***; Links: ***; Size: unknown
#21 http://www.forestworld.com/index.html
#29 ay
#40 Forest Products and Industries and Industries (General)
#41 KK500
#60 free; no restriction
#70 ***
#74 professional; commercial
#82 about 300
#91 20000525
#95 SUB
#99e20090630/15:04:41
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : signature.asc
Dateityp : application/pgp-signature
Dateigröße : 842 bytes
Beschreibung: Message signed with OpenPGP using GPGMail
URL : <http://bibservices.biblio.etc.tu-bs.de/pipermail/allegro/attachments/20170614/798a5da5/attachment.sig>
Mehr Informationen über die Mailingliste Allegro