LIBREAS.Library Ideas

Petras/Translating Dialects in Search…

Posted in LIBREAS.Referate by Ben on 3. August 2006

Petras, V.: Translating Dialects in Search: Mapping between Specialized Languages of Discourse and Documentary Languages. Dissertation at Graduate Division of the University of California, Berkeley (2006) http://www.sims.berkeley.edu/~vivienp/diss/

Der Referent darf und will nicht verschweigen, dass die Autorin einst studentische Hilfskraft bei ihm war und schon in dieser Zeit mit M. Bank eine durchaus bemerkenswerte Korrektur[1] der bekannten Arbeit von Giles und Lawrence (in Science, April 1998) publiziert hat.

INSPEC hat eigentlich keinen Thesaurus sondern eher eine Klassifikation.[2] Die „Deskriptoren“ sind in ihrer Begrifflichkeit zu breit für einen typischen Thesaurus, so dass im Durchschnitt auch nur 7 „Deskriptoren“ vergeben werden (S.130 bzw. 230).[3] Bei 450.000 Records/J ist das nicht viel. Daran erkennt man, dass die Indexierungsbreite und die Indexierungsspezifität in der Weise miteinander korrespondieren, dass mit wachsender begrifflicher Breite der Deskriptoren bzw. der Klassen die Indexierungsbreite zwangsläufig abnehmen muss.[4]

Je größer die Zahl der Dokumente ist, um so höher muss auch die Indexierungsbreite sein. Darin liegt ja der eigentliche Grund für das Entstehen der Dokumentation im letzten Jahrhundert. Wenn beispielsweise 427.340 Records durch 8.447 verschiedene INSPEC Deskriptoren erschlossen werden (S.129), erbringt jeder dieser Deskriptoren durchschnittlich 50 Treffer. Bei 7 Deskriptoren/Record sind es Ø 350 Hits.

Interessant sind auch die VENN-Diagramme (S. 137, 138, 142, 143, 186), da man auf sie einen einfachen wahrscheinlichkeitstheoretischen Test anwenden kann,[5] der z.B. deutlich zeigt, dass in der Physikdatenbank INSPEC, Worte wie Computers und Physics in der natürlichen Sprache der Dokumente deutlich seltener als bei einer Zufallsverteilung gemeinsam vorkommen,

Physics = 0,33 + 0,04 + 0,20 + 0,13 = 0,70 Computers = 0,13 + 0,04 + 0,20 + 0,13 = 0,50 Physics ∩ Computers = 0,04 + 0,20 = 0,24 0,70 x 0,50 / 0,24 = 1,46 während die Indexer diese scheinbare Zufälligkeit wieder herstellen. Physics = 0,09 + 0,02 + 0,62 + 0,15 = 0,88 Computers = 0,01 + 0,02 + 0,62 + 0,08 = 0,73 Physics ∩ Computers = 0,02 + 0,62 = 0,64 0,88 x 0,73 / 0,64 = 1,00

Im Prinzip geht es bei der Arbeit um den Einsatz von „search term recommenders“ und das Verhältnis der Recall Ratio zur Precision. Dabei zeigt sich, dass die alte Erkenntnis von F. Lancaster (vor ~40 Jahren an MEDLARS gewonnen) bis heute noch sehr stabil ist, bei der sich das Verhältnis zwischen Precision und Recall als etwa linear erweist. Im Bereich von 20% – 60% Recall Ratio beträgt die Steigung meist etwas weniger als -1. Mit zunehmendem Recall fällt somit die Precision direkt proportional. Dieser Umstand ist insofern besonders bemerkenswert, weil er in erster Näherung besagt, dass professionelle Rechercheure seit Jahrzehnten das Optimum anstreben, bei dem etwa 50% Recall auch 50% Precision gegenüberstehen. Auch bei Volltextrecherchen hat sich daran kaum etwas geändert, obwohl die Recall Ratio dort nicht selten auf siebzig oder achtzig Prozent erhöht werden kann. Dabei fällt aber die Precision oft auf störend kleine Werte ab, wenn man nicht sehr lang und intensive recherchiert. Nach Jahrzehnten Erfahrung (von den Cranfield Studies vor vierzig Jahren bis heute) lässt sich erkennen, dass das Verhältnis von Recall und Precision weniger ein Zeichen für die Güte einer Datenbank ist, als vielmehr ein Optimum das Rechercheure grundsätzlich anstreben. Sie wissen, dass sie sich dann etwa im Optimum befinden, wenn jedes zweite Dokument das sie in der Recherche herausfiltern relevant ist, und wenn sie feststellen, dass sie etwa jedes zweite Dokument das auf dem recherchierten Gebiet relevant ist, gefunden haben. Dieses Optimum ließ sich bei MEDLARS erfahrungsgemäß annähernd erreichen, unterliegt aber selbstverständlich erheblichen Streuungen. Wiederholte Vergleiche haben gezeigt, dass die Recall Ratio einer Datenbank um 40% pendelt.

Durch einen guten Thesaurus verbessert sich dieser Wert bemerkenswerter Weise nicht. Er verringern lediglich die Schwankungen. Dies wird durch das oben erwähnte Ergebnis neu belegt. In den Grafiken der vorliegenden Arbeit liegen die Recall-Werte bei einer Precision von rund 50% meist erheblich unter 40%. Bei INSPEC (S.157) beispielsweise sogar weit unter 10%, da erhöhte Recall Ratios nur bei entsprechend hoher Indexierungsbreite (im Extremfall beim Volltext) erreichbar sind. Die Ergebnisse zeigen daher auch, dass es die Aufgabe eines search term recommenders sein muss, stärker auf die Precision als auf die Recall Ratio zu achten, da Endnutzer ein System eher als positiv bewerten, das ihnen von 100 Treffern 50 Relevante erbringt, als solche, die von 100 Treffern nur einen relevanten bzw. alle hundert relevante herausfiltern.

Im letzten Fall hätte man zwar als Endnutzer das Gefühl sehr viel relevante Information bekommen zu haben, wüsste aber nicht, wie viel weitere Treffer möglich gewesen wären, da das Umfeld (mit ähnlichen aber nichtrelevanten Treffern) zum Vergleich fehlt. Der Einsatz eines leistungsfähigen search term recommenders zeigt sehr schön, dass auch er mit wachsender Leistungsfähigkeit das Verhältnis zwischen Precision und Recall gegen -1 führt, wobei der Schnittpunkt mit der y-Achse (Precision) möglichst hoch sein sollte. Eine geringere Steigung würde zwar bei leichtem Precision-Verlust zu rascherem Anstieg der Recall Ratio führen, aber dies auf niedrigem Niveau (S.237).

(W. Umstätter)

[1] Petras, V. und Bank, M.: Vergleich der Suchmaschinen AltaVista und HotBot bezüglich Treffermengen und Aktualität. nfd 98 (6) (1998) [2] http://www.ib.hu-berlin.de/~wumsta/pub35.html [3] 50% der Dokumente haben nur 2-6 Deskriptoren [4] http://www.ib.hu-berlin.de/~wumsta/pub65.html [5] Umstätter, W. und Rehm, M.: Einführung in die Literaturdokumentation und Informationsvermittlung. Saur. Verl. München S.8-10 (1981) http://www.ib.hu-berlin.de/~wumsta/infopub/textbook/definitions/d43.html

Eine Antwort

Subscribe to comments with RSS.

  1. […] Vivien Petras, die am IBI (auch) auf diesem Gebiet forscht, wird sich freuen, dass sich ihr kalifornischer PhD-Betreuer mit Dank zitiert wird. (und zwar mit der hier annotierten Arbeit) […]


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: