LIBREAS.Library Ideas

„In retrospect it would have been better to follow the research assistant’s advice“ – Über die Langzeitarchivierung von Open Access Journalen

Posted in LIBREAS.Referate by libreas on 30. Januar 2012

Rezension zu: Michael Seadle (2011) Archiving in the networked world – open access journals. Library Hi Tech 29 (2): 394-404. DOI: 10.1108/07378831111138251 , Grundlage des Referats – URN: urn:nbn:de:kobv:11-100197292

Najko Jahn

Das Directory of Open Access Journals (DOAJ) stellt wohl die bedeutendste Quelle für den Nachweis  von Open-Access Journalen dar. Es verzeichnet nicht nur Zeitschriftentitel, sondern weist auch Volltextdokumente nach. Michael Seadle, Herausgeber von Library Hi Tech, erkennt in seiner Kolumne „Archiving in the networked world – open access journals“ den Wert einer solchen Quelle für die Beantwortung von bibliotheks- und informationswissenschaftlichen Fragestellungen, wenn er zur Disposition stellt, inwieweit die Langzeitarchivierung der in DOAJ verzeichneten Titel gewährleistet sei und wann Initiativen in diesem Bereich, und zwar LOCKSS/CLOCKSS, Portico und e-Depot, die Aufgabe der Langzeitarchivierung der Open Access Zeitschriftenaufsätze erfüllen könnten.

Motiviert der Autor zunächst relevante Fragestellungen, so sind Methodendarstellung, Datengewinnung und die darauf aufbauende Ergebnisdarstellung und -diskussion in seiner Kolumne weniger überzeugend.


So heißt es gleich zu Beginn der Darstellung der Datengewinnung:

The initial data were gathered by copying and pasting screenshots of DOAJ into files that were combined into a single text file. A research assistant did this work (she sensibly suggested that writing a harvesting program would have been better) and existing programs were modified to convert the screen data into a csv (comma separated values) file. In retrospect it would have been better to follow the research assistant’s advice, or at least to copy the html source code, since the text-conversion process deleted the gif references “<img src=/doajImages/doajContent.gif border=0>” which turned out to be the only indication of full text and thus a key indicator for which journals the KB would eventually include in e-Depot. This meant that a harvesting program had to be written anyway to gather data about titles that would eventually be in e-Depot.

Mittels Methoden des Web Scraping, also der Informationsextraktion direkt aus Webseiten, sollen die im DOAJ verzeichneten Zeitschriftentitel gewonnen werden. Zwar erkennt der Autor, dass sein Vorgehen Schwächen aufweist, da die Gewinnung von Hinweise auf Volltexte in DOAJ leider verloren gehen können. Aber auch der Alternativvorschlag hält weiterhin am Scraping fest. So könnte eine Bilddatei darüber Auskunft geben, ob Volltexte zu einem Zeitschriftentitel vorhanden sind oder nicht. Was folgt ist eine ausführliche Beschreibungen der einzelnen Schritte und die Dokumentation eines Perl-Codes im Anhang, der sich über drei Seiten des zehnseitigen Papers erstreckt.

Informationen aus einem Webangebot mittels Scraping zu extrahieren, mag für geschlossene Angebote, die keine offenen Schnittstellen anbieten, der einzig gangbare Weg zu sein. Ein besonders populäres Angebot, das diese Methode nutzt, ist Publish or Perish, das auf Google Scholar aufsetzt. Allerdings ist DOAJ Teil der Open Archives Initiative und stellt damit seine Daten frei und strukturiert über OAI-PMH zur Verfügung. Zudem zeichnet sich DOAJ durch eine ausführliche und strukturierte Darlegung der gelisteten Zeitschriftentitel aus, womit schnell ein Überblick über seinen Umfang zu gewinnen ist. Die Tabelle lässt sich regelmäßig aktualisiert unter

http://www.doaj.org/doaj?func=csv

herunterladen.

Datenanalyse – Zeitschriftentitel

Anstatt die Tabelle im csv-Format, die DOAJ auf seiner Webseite zum freien Download anbietet, zu verwenden, beginnt der Autor seine Datenanalyse dahingehend, dass er sich an der DOAJ-Fachklassifikation orientiert und auf den entsprechenden Webseiten der Klassen die Metadaten der zugehörigen Journals extrahiert. Dabei stellt er fest, dass ein Zeitschriftentitel auch mehreren Klassen angehören kann, was eine Dublettenkontrolle nach sich zieht:

It became immediately clear after the first sort that the file contained duplicates. Journals that fit more than one DOAJ topic area apparently had an entry in each. To correct for this the program in Appendix 2 (“Remove Duplicates”) was used to remove duplicates based on ISSN matching. The resulting file had 5915 entries, while the DOAJ “new titles” search function claims 6205 entries from 1900-01-01 to 2011-02-28.

Hätte der Autor die DOAJ-Tabelle verwendet, wäre dieses Problem nicht aufgetreten, wie folgende Überprüfung mit R zeigt:


url <- c("http://www.doaj.org/doaj?func=csv")

doaj<-read.csv(url,header=T,sep=",")

print(dim(doaj))

# [1] 7445   15

print(length(unique(doaj$ISSN)))

# [1] 7445

Ein weiterer Blick ergibt zudem, dass die Tabelle sehr ausführliche Daten liefert wie der Zeitstempel der Neueintragung eines Journals in DOAJ, welche in der weiteren Diskussion im Aufsatz relevant ist, um eine Wachstumsrate der Zeitschriftentitel im DOAJ zu bestimmen und diese mit den bisherigen Archivierungsaktivitäten zu vergleichen.

Um zunächst eine Wachstumsrate zu explorieren, bietet es sich an, die zeitliche Verteilung der Neuregistrierung der OA-Journals anhand der DOAJ – Tabelle abzubilden


doaj$Added.on.date <- as.Date(doaj$Added.on.date, format="%Y-%m-%d")

#Table + cumulative sum
require(ggplot2)

date.doaj <- as.data.frame(table(unlist(doaj$Added.on.date)))
cum <- cumsum(date.doaj$Freq)
date.doaj <- cbind(date.doaj,cum)

ggplot(date.doaj, aes(as.Date(Var1),cum)) + geom_line(colour="blue") +xlab("Date added to DOAJ") + ylab("Cumulative Sum")

ggsave("doajCumTitle.png")

Das Diagramm zeigt, dass die Neuregistrierung von Journals im DOAJ nicht gleichverteilt ist, womit der Schluss

389 titles (6%) have been added to DOAJ in 2 months. If the 6% growth rate is not an anomaly (and past statistics suggest that it is not), it has significant implications for any archiving plan.

zwar als intuitiv plausibel für die betreffenden Monate (und zwar Januar & Februar 2011) erscheinen mag, allerdings nicht ohne Weiteres generalisierbar ist. Leider referenziert der Autor an dieser Stelle auch keine Quellen, die seine Vermutung, dass 6% keine Anomalie darstellen, stützen.

Datenanalyse – Volltextnachweise

Neben der Anzahl der im DOAJ verzeichneten Zeitschriftentitel schätzt der Autor zudem das Vorhandensein von Links auf Volltexten je Journal im DOAJ ab. Ungeachtet der Frage, ob es sinnvoll ist, nur das Vorhandensein und nicht die tatsächliche Häufigkeit der Verweise auf Dokumente in einem ersten Schritt zu eruieren, da sich auch OA-Zeitschriften in ihrer Produktivität massiv unterscheiden können (vgl. LIBREAS mit einem beliebigen BMC-Journal), erscheint auch hier die beschriebene Datengewinnung als wenig zielführend; der Autor sucht nach einem Volltext-Indikator (wohl die Bilddatei) wiederum auf den Webseiten.

Das DOAJ hingegen exponiert seine Volltexte über OAI-PMH, womit sich die hinterlegten Dokumente schnell aggregieren lassen, wie das Beispiel anhand des Jahre 2011 zeigt:

http://www.doaj.org/oai.article?verb=ListRecords&from=2011-01-01&until=2011-12-31&metadataPrefix=doajArticle

Für das Jahr 2011 sind 235.807 Nachweise verzeichnet. Würde der Autor diesem Weg folgen, könnte er die Anzahl der Volltextdokumente, die für die Langzeitarchivierung relevant ist, genau bestimmen und diese sogar nach Zeitschriftentiteln und der Priorität ihrer Archivierung gewichten. Ohne diesen Weg zu gehen, bleibt nur die Vermutung:

The KB plans to archive about 30 journals per week, which would
mean about 1560 per year, but if DOAJ were to continue to add titles at this rate, it would have at least 2334 additional titles each year, of which (based on the 50% statistic above) 1167 titles would be eligible full text works. In other words, progress toward complete archiving would take 8 years, as
shown in table 1. (Note: this this calculation is conservative in making its projections based on the absolute number of titles added during the last two months rather than on a percentage increase, which would mean significantly more titles over time.)

Es bleibt insgesamt festzustellen, dass das DOAJ als standardisierte und offene Quelle weitaus mehr Möglichkeiten bietet, die Entwicklungen und Herausforderungen im Bereich der Digitalen Langzeitarchivierung von Open Access Zeitschriften zu begleiten, als es der Aufsatz darstellt.

Auch wenn der Autor abschließend betont, dass seine Extraktionsroutinen nur „Quick & Dirty“ seien und er sie aus Gründen der Reproduzierbarkeit und Verbesserung hin im Anhang veröffentlicht, fehlen wichtige Darstellungen für die Gewinnung der Daten und ihrer Analyse, die Anschlüsse für die weitere Diskussion der überaus relevanten Fragestellungen schaffen.

2 Antworten

Subscribe to comments with RSS.

  1. Elena said, on 6. März 2012 at 22:55

    Es war sehr schön so einen kompetenten „peer review“ zu lesen, vielen Dank! Man fragt sich bloß leise, wieso „der Autor“ gleich der Herausgeber solcher Fachzeitschrift und sogar als Leiter am Institut dieser Fachdisziplin tätig ist. Zum Glück (?) gibt’s auch research assistants.

  2. norman sald said, on 18. Juli 2012 at 19:05

    Als denn! Ist der Herr also nicht nur inkompetent zu kommunizieren, zu urteilen – es hapert also sogar an Kompetenz im eigenen Feld. Angeblich kann er tolle Scones backen.
    Merci!


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: