Eine kurze Geschichte der Open-Access-Repositorien-Landschaft in Deutschland von 1991-2013
Wenn es um das Thema Open Access geht, dann wird oft in die Zukunft geschaut, um zu erfahren, wann Open Access in der Politik, Wissenschaft und Mitte der Gesellschaft angekommen sein wird. Der 2014 Census of Open Access Repositories in Germany, Austria and Switzerland (2014 Census) stellt einen Status Quo der deutschen Repositorienlandschaft dar. Jedoch eine Frage, die im Rahmen des 2014 Census gestellt wurde, hat eine historische Dimension:
“Seit welchem Jahr ist Ihr Repositorium über das WWW zugänglich? Im Falle von Vorgängerversionen wird die Jahreszahl der ersten Implementierung des Repositoriums erfasst.” Erhebungsdatum: 2014-01-13 – 2014-02-06.(1)
Die Antworten auf diese Frage gewähren einen Blick zurück auf den grünen Weg, der in Deutschland in den letzten zwanzig Jahren beschritten wurde. Von den 152 Open-Access-Repositorien (OAR) im 2014er Census haben 80 Betreiber das Startdatum ihres OAR angegeben.(2) In dem folgenden Beitrag werden daher nur diese 80 OAR behandelt. Die OAR-Betreiber wurden in folgende drei Typen eingeteilt:
- Universität (3)
- Fachhochschule (4)
- außeruniversitäre Forschungseinrichtung und Andere (im Folgenden nur außeruniversitäre Forschungseinrichtung) (5)
Darüber hinaus erfolgte eine Kategorisierung, ob es sich bei dem Repositorium um ein fachliches oder institutionelles OAR handelt. Ein weiteres Kriterium ist der DINI-Validator-Score, den die OAR durch die Überprüfung mittels des DINI-Validators im Rahmen des 2014 Census erreichten. Der DINI-Validator-Score ist ein Maßstab für die Metadatenstandard- und Schnittstellenkonformität eines OAR mit dem DINI-Zertifikat 2010. (6)
Jeder der genannten Aspekte für sich liefert genügend Daten für eine umfangreiche Auswertung. Doch erst die Kombination aller vier Kriterien ermöglicht den folgenden kurzen historischen Abriss der deutschen Repositoriengeschichte (siehe Abbildung 1).
Prägend für die 1990er Jahre sind institutionelle OAR, deren Betreiber fast immer Universitäten waren. Universitäten ebneten den grünen Weg für außeruniversitäre Forschungseinrichtungen sowie Fachhochschulen. Es bestätigt sich jedoch nicht die Annahme, dass die universitären “early adopters” sich bis heute zu größeren OAR (weiter-)entwickelt hätten. Vielmehr ergibt sich eher ein heterogenes Bild von kleinen, mittleren und großen universitären OAR. (7)
In den Zweitausendern zogen vor allem außeruniversitäre Forschungseinrichtungen nach und bauten sowohl fachliche als auch institutionelle OAR auf, die vorrangig mittlerer jedoch zum Teil auch von enormer Größe sind.
Dem Gros der universitären und außeruniversitären OAR steht eine kleine Zahl an OAR gegenüber, die von Fachhochschulen betriebenen werden. Die meisten von ihnen starteten ihren, in der Regel kleinen, Dienst erst nach 2005.
Insgesamt wuchs die deutsche Repositorienlandschaft in den letzten 20 Jahren stetig und schubweise (siehe Abbildung 2). Die Jahre 1999, 2003 und 2006 markieren hierbei die Wachstumshöhepunkte in der Entwicklung der Repositorienlandschaft (siehe Abbildung 3). War der erste Schub in 1999 noch geprägt von Universitäten, die ein OAR aufbauten, so trugen 2003 zunächst auch außeruniversitäre Forschungseinrichtungen und Andere und später in 2006 auch Fachhochschulen zum sprunghaften Wachstum der Repositorienlandschaft bei (siehe Abbildung 4). (8)

Abbildung 2: Jährliche Anzahl der gelaunchten Open-Access-Repositorien in Deutschland (1991-2013) (9)

Abbildung 3: Anteile der Betreibertypen am Wachstum der deutschen Open-Access-Repositorien-Landschaft (1991-2013) (10)

Abbildung 4: Jährliche Anzahl der gelaunchten Open-Access-Repositorien nach Betreibertypen in Deutschland (1991-2013) (11)
DINI-Validator-Score
Hinsichtlich des DINI-Validator-Scores zeigt Abbildung 1, dass weder der Betreibertyp, noch Größe oder Repositorientyp einen signifikanten Einfluss auf den Score haben. Neben den größten fachlichen OAR (EconStor und German Medical Science), die von außeruniversitären Forschungseinrichtungen betrieben werden, haben kleine OAR von Fachhochschulen (z. B. FH Köln und FH Hannover) sehr gute DINI-Validator-Scores zwischen 90,0 und 100,0. Gleichzeitig gibt es von beiden Betreibertypen OAR, die im Bereich von 65,0 bis 75,0 eher mittelmäßig abschneiden. Leider ist zu beobachten, dass jüngere OAR nicht zwangsläufig eine bessere Metadatenqualität als ihre älteren Pendants haben, obwohl eine Dekade und das Wissen um bestehende Standards zwischen ihren Launches steht. Viele der vor 2002 gelaunchten OAR haben nur einen mittelmäßigen DINI-Validator-Score, was vermuten lässt, dass diese Institutionen die Metadaten ihrer Publikationen und die Schnittstellen ihrer OAR nicht oder nur ungenügend neuen Standards anpassen.
Fazit
Die kurze Geschichte der deutschen OAR-Landschaft ist geprägt von Universitäten, die als Pioniere der ersten Stunde den grünen Pfad des Open Access überhaupt erst zu einem Weg machten. Fachhochschulen und außeruniversitäre Forschungseinrichtungen sind als betreibende Institutionen eine Minderheit, die gleichzeitig das unterste und oberste Ende des Größenspektrums ausmachen.
Ebenfalls gilt festzuhalten, dass in Deutschland Metadatenqualität nichts mit der Größe eines OAR zu tun hat. So gibt es kleine aber feine OAR, die als Hidden Champions in ihrem Tagesgeschäft mit ihrer standardkonformen Erschließung vorbildliche Arbeit leisten.
Das Bemerkenswerteste an dieser kurzen Geschichte der deutschen OAR-Landschaft rückte jedoch in der obigen Darstellung in den Hintergrund: die beachtliche Zahl von insgesamt 152 OAR, die in den letzten knapp 20 Jahren in Deutschland von wissenschaftlichen Bibliotheken, Forschungsorganisationen und anderen öffentlichen Institutionen aufgebaut wurden.
Da unklar ist, wieviel Strecke vom grünen Weg noch vor uns liegt, können wir nicht wissen, ob der grüne Open Access in Deutschland angekommen ist. Jedoch zeigt uns ein Blick zurück auf 20 Jahre grünen Open Access in Deutschland, dass der oft schwerste Teil einer Reise hinter uns liegt: der erste Schritt.
(1) Die Forschungsdaten, die im Rahmen des 2014 Census gesammelt wurden, werden im Forschungsdatenrepositorium zenodo.org im Laufe des Dezember 2014 bereitgestellt. http://doi.org/10.5281/zenodo.10734
(2) Durch einen technischen Fehler im Online-Formular konnte bei der Erfassung des Startdatums eine nicht zulässige Angabe übermittelt werden, welche bei dieser Auswertung als Fehler gewertet und daher nicht berücksichtigt wird. Die Grundgesamtheit reduziert sich von 81 Antworten auf 80 valide Angaben.
(3) Der Begriff Universität umfasst deutsche Universitäten und Hochschulen mit Promotionsrecht laut Hochschulrektorenkonferenz-Liste (HRK-Liste), siehe: http://www.hochschulkompass.de/hochschulen/hochschulen-in-deutschland-die-hochschulsuche.html
(4) Der Begriff Fachhochschule umfasst Fachhochschulen und Hochschulen ohne Promotionsrecht laut HRK-Liste.
(5) Der Begriff Außeruniversitäre Forschungseinrichtungen und Andere umfasst z. B. Forschungsinstitute und Forschungszentren, wobei Andere z. B. staatliche Einrichtunge wie Bundesanstalten sein können.
(6) Der Wertebereich des DINI-Validator-Scores reicht von 0,0 bis 100,0. Für den DINI-Validator siehe: http://oanet.cms.hu-berlin.de/validator/pages/validation_dini.xhtml
(7) Größe: Die untersuchten OAR wurden je nach Anzahl der vorgehaltenen Items in folgende Größenkategorien unterteilt: „klein“ = 1-1.000; „mittel“ = 1.001-5.000; „groß“ = > 5.001. Item bezeichnet die laut Bielefeld Academic Search Engine vorgehaltenen Open-Access-Volltextveröffentlichungen, die im Idealfall die Gesamtheit des Bestands ausmachen, siehe: http://www.base-search.net/about/de/faq.php#chap03
(8) Welchen Einfluss Hosting-Dienste auf die Entstehung der deutschen Repositorienlandschaft hatten, stellt hierbei eine Forschungslücke dar.
(9) Vierkant, Paul. (2014). Jährliche Anzahl der gelaunchten Open-Access-Repositorien in Deutschland (1991-2013). ZENODO. 10.5281/zenodo.12954
(10) Vierkant, Paul. (2014). Anteile der Betreibertypen am Wachstum der deutschen Open-Access-Repositorien-Landschaft (1991-2013). ZENODO. 10.5281/zenodo.12952
(11) Vierkant, Paul. (2014). Jährliche Anzahl der gelaunchten Open-Access-Repositorien nach Betreibertypen in Deutschland (1991-2013). ZENODO. 10.5281/zenodo.12949
(12) Vierkant, Paul. (2014). Historische Entwicklung von Open-Access-Repositorien in Deutschland 1991-2013. ZENODO. 10.5281/zenodo.12969
Querverweise zwischen Zeitschriftenaufsätzen und Forschungsdaten: rebi, ein R-Paket für Europe PMC
Seit wenigen Tagen steht eine erste Version des R-Pakets rebi als Teil von rOpenSci zur Verfügung. rebi ermöglicht die Aggregation und Exploration der in Europe PubMed Central (Europe PMC) indexierten Veröffentlichungen und Forschungsdaten.
Zu diesem Zwecke fragt rebi den kürzlich veröffentlichten Europe PMC RESTful Web Service ab. Die API ergänzt das bereits seit längerem bestehende SOAP-Interface, das beispielsweise im Projekt OpenAIREplus die Basis für einen disziplinären Demonstrator bildete.
Ein Ergebnis des Demonstrators – die Erschließung und Sichtbarmachung von Querverweisen zwischen Publikationen und Forschungsdaten am European Bioinformatics Institute (EBI) – nutzt das Repository PUB – Publikationen an der Universität Bielefeld nach. Bis dato konnten rund 70.000 Querverweise zwischen EBI-Datenbanken wie dem European Nucleotide Archive (ENA) oder UniProt und 600 biowissenschaftlichen Veröffentlichungen automatisch identifiziert und auf Artikelebene eingebunden werden.
rebi war zunächst für die statistische Begleitung der EBI-Anreicherung in institutionelle Forschungsservices gedacht. Jedoch erlaubt das R-Paket weitere Dimensionen der Datenexploration, wie z.B die der Querweise auf Ebene eines Journals.
Die obige Abbildung zeigt die Verteilung der in Europe PMC indexierten Artikel der Zeitschrift PLOS Genetics nach Publikationsjahr. EBI-Services verweisen zu 2.226 Veröffentlichungen (Variable „Y“) von insgesamt 3.499 indexierten Beiträgen (63,61 %). Die Diskrepanz der Verteilung für das Jahr 2013 lässt sich mit dem Zeitfenster erklären, das die Datenspezialisten am EBI für ihre häufig auch intellektuelle Erschließung der Verweise nach der Journal-Veröffentlichung benötigen. Daher sollten entsprechenden Auswertungen und auch die Aggregation für eigene Bibliotheksanwendungen regelmäßig wiederholt werden.
Mit rebi lässt sich das obige Säulendiagramm mit fünf einfachen Funktionsaufrufen erstellen.
require(rebi) #get metadata for PLOS Genomics by ISSN plos.genetics <- searcheuropmc(query="ISSN:1553-7404") #format year published to date object plos.genetics$pubYear <-format(plos.genetics$pubYear, format="%Y") #relevel according to frequency of occurrence Cross-Links to EBI databases plos.genetics$hasDbCrossReferences <- factor (plos.genetics$hasDbCrossReferences, levels = c(rownames(data.frame(rev(sort(table(plos.genetics$hasDbCrossReferences))))))) #plot require(ggplot2) p <- ggplot(plos.genetics, aes(pubYear, ..count.., fill = hasDbCrossReferences)) + geom_bar() + theme_bw() + scale_fill_brewer("EBI\nCross-References",palette="Accent") + xlab("Year") + ylab("PLOS Genetics Articles") + opts(legend.key=theme_rect(fill="white",colour="white")) #save plot ggsave(plot = p, "rebi.png", h = 3.08, w = 7.2)
rebi soll kontinuierlich erweitert werden und enthält derzeit neben der allgemeinen Suchfunktion Aufrufe für die Gewinnung der bibliographischen Metadaten der referenzierten Veröffentlichungen und Zitationen sowie die Berechnung der Anzahl der EBI-Querverweise je Artikel. Weitere rebi-Funktionen können die Gewinnung der Nukleinsäuresequenzen etwa im FASTA-Format ebenso ermöglichen wie die Aggregation der vom EBI automatisch extrahierten Schlagwörter und Taxonomien.
Literatur
McEntyre J.R., Ananiadou S., Andrews S., Black W.J., Boulderstone R., Buttery P., Chaplin D., Chevuru S., Cobley N., Coleman L.-A., et al. UKPMC: a full text article resource for the life sciences. Nucleic Acids Res. 2011;39:D58–D65.PMC3013671
(Najko Jahn)
Institutionelles Publikationsaufkommen in Open Access Zeitschriften — ein Vorschlag mit R
Das DFG Programm Open Access Publizieren fördert Hochschulen, die dauerhafte und verlässliche Strukturen für die Begleichung von Artikelbearbeitungsgebühren, die für die Veröffentlichung in Open-Access-Zeitschriften erhoben werden, an ihrer Einrichtung etablieren. In diesem Sinne erfordert die Antragstellung belastbare Angaben zum entsprechenden Publikationsaufkommen der Hochschule in OA-Zeitschriften und eine transparente Darlegung der Datenerhebung.
Die Universität Bielefeld beteiligt sich mit ihrem Publikationsfonds bereits seit 2011 an der DFG-Ausschreibung. Um die jährlichen Berichtserfordernisse mit möglichst geringem Aufwand über das Institutionelle Repositorium „PUB — Publikationen an der Universität Bielefeld“ zu beantworten, basiert das Berichtswesen auf Standards der Digital Library Community (SRU, CQL, MODS) und Routinen der statistischen Programmiersprache R. Somit lassen sich Datenerhebung und -auswertung nicht nur transparent nachvollziehen und reproduzieren, sondern, dank der Standardisierung, auch an anderen Hochschulen wiederverwenden.
Eine Beispiel für eine Anforderung der DFG im Programm „Open Access Publizieren“ ist die Darlegung des institutionellen Publikationsaufkommens in Open-Access-Zeitschriften je Verlag.

Abbildung 1: Jährliche Verteilung Open Access Zeitschriftenartikel an der Universität Bielefeld auf Verlage
Abbildung 1 stellt die fünf häufigsten Verlage, auf die Open-Access-Veröffentlichungen an der Universität Bielefeld entfallen, dar. Ein solches Diagramm erlaubt die kontinuierliche Prüfung möglicher Mitgliedschaften oder Vorauszahlungen. Solche Angebote der OA-Verlage versprechen eine Verringerung des Verwaltungsaufwands für Forschende und Bibliothek.
Ebenfalls zeigt die Abbildung, dass sich die Publikationsmöglichkeiten deutlich ausdifferenzieren. Zeitschriftenartikel in Verlagen, die zugunsten der Übersichtlichkeit in die Kategorie „other“ zusammengefasst sind, veröffentlichen meistens sehr junge oder kleine Journals. Diese sind häufig (noch) nicht Teil der Master Journal List des Web of Science und lassen sich daher am Besten über eine Erhebung vor Ort eruieren. Am Beispiel der Universität Bielefeld umfasst die Kategorie „other“ OA-Journale wie das Journal of Social Science Education (JSSE), das an der UB Bielefeld gehostet wird, oder die von der DFG geförderte Zeitschrift Social Work and Society.
Im folgenden werden die einzelnen Schritte zur Gewinnung der Abbildung 1 mit R dargelegt:
1. Schritt: Publikationsaufkommen 2007 – 2012
Alle in PUB verzeichneten Publikationen für den Zeitraum 2007 — 2012 lassen sich über SRU/CQL abfragen.
Die standardmäßige Ausgabe der Daten erfolgt in MODS. Relevante Felder lassen sich mit R wie folgt parsen.
require(RCurl) require(XML) #all url <- "http://pub.uni-bielefeld.de/sru?version=1.1&operation=searchRetrieve&query=publishingYear%20%3E%202006%20AND%20publishingYear%20%3C%202013&maximumRecords=1000" id <- c() year <- c() genre <- c() for(i in seq(0, 40000, by = 1000)) { url.d<-paste(url, "&startRecord=", i , sep = "") doc <- xmlTreeParse(url.d, useInternal=T) id.tmp <- xpathSApply(doc,"//r:recordInfo//r:recordIdentifier", namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue) year.tmp <- xpathSApply(doc,"//r:dateIssued", namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue) genre.tmp <- xpathSApply(doc,"//r:genre", namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue) if(length(id.tmp) == 0) break else id <- c(id, id.tmp) year <- c(year,year.tmp) genre <- c(genre,genre.tmp) df.tmp <- data.frame (id, year, genre) }
Hieraus lässt sich sowohl die Gesamtanzahl aller registrierten Publikationsnachweise eruieren wie die Anzahl der Zeitschriftenartikel im Zeitraum 2007 bis 2012.
#gesamt dim(df.tmp) #Zeitschriftenartikel nrow(df.tmp[df.tmp$genre == "article",]) #Anteil in % nrow(df.tmp[df.tmp$genre == "article",]) / nrow(df.tmp) *100
Insgesamt sind zum 31.3.2013 13.393 Publikationen registriert, 5.960 Veröffentlichungen entfallen auf Zeitschriftenartikel, was einen Anteil am Publikationsaufkommen von rund 44,5 % entspricht.
2. Schritt: Gewinnung ISSN
Der zweite Schritt umfasst die Aggregation der ISSN oder EISSN, die für den eindeutigen Abgleich mit der Journalliste des DOAJ benötigt wird:
#subset journal article my.journal <- df.tmp[df.tmp$genre == "article",] #query for issn/eissn df.enrich <- data.frame() u <- "http://pub.uni-bielefeld.de/sru?version=1.1&operation=searchRetrieve&query=id=%22" for (i in unlist(my.journal$id)) { url.t <-paste(u,i,"%22", sep="") doc = xmlTreeParse (url.t, useInternal=T) issn <- xpathSApply(doc,"//r:relatedItem//r:identifier[@type='issn']",namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue) if (length(issn) == 0) { issn <- "notFound" } else { issn <- issn } df.all.tmp <- data.frame(i, issn) df.enrich <- rbind(df.enrich, df.all.tmp) } #join with data.frame journal.tmp <- merge(df.ernrich, my.journal, by.x="i", by.y="id")
ISSN ist in PUB kein Pflichtfeld, um den Registrierungsaufwand der Forschenden möglichst niedrigschwellig zu gestalten. Fehlende ISSN können jedoch ex post durch den PUB Support nachgepflegt werden.
Eine solche Tabelle zur nachträglichen Datenpflege lässt sich mit R wie folgt generieren:
# exclude records without issn #subset my.miss <- journal.tmp[journal.tmp$issn =="notFound",] nrow(my.miss) # number of records without issn (174) #export csv wirte.csv(my.miss, "missingISSN.csv")
3. Schritt: Abgleich DOAJ
Das Directory of Open Access Journals (DOAJ) bietet eine Liste aller verzeichneten Open-Access-Zeitschriften als csv-Download an:
http://www.doaj.org/doaj?func=csv
Das Laden und der Abgleich über ISSN und EISSN mit R:
#load DOAJ data doaj <- read.csv("http://www.doaj.org/doaj?func=csv", header = TRUE, sep=",") #merge by ISSN/EISSN doaj.issn <- subset(journal.tmp, issn %in% doaj$ISSN) doaj.essn <- subset(journal.tmp, issn %in% doaj$EISSN) #combine doaj.comp <- rbind(doaj.issn, doaj.essn) #add additional doaj info test.1 <- merge(doaj.issn, doaj, by.x="issn",by.y="ISSN") test.2 <- merge(doaj.essn, doaj, by.x="issn",by.y="EISSN") colnames(test.2) <- colnames(test.1) my.comp <- rbind(test.1, test.2) #exclude duplicates my.comp <- my.comp[!duplicated(my.comp$i),]
Insgesamt lassen sich so 496 Artikel in DOAJ-Zeitschriften an der Universität Bielefeld für die Jahre 2007 – 2012 identifizieren.
4. Schritt Datenexploration
Das data.frame my.comp
bildet nun die Datengrundlage für die Visualisierung der Verteilung nach Verlagen, in denen die zuvor identifizierten Zeitschriftenartikel erschienen sind.
require(ggplot2) #normalize year my.comp$year <- as.numeric(format(my.comp$year, format = "%Y")) #relevel Publisher my.comp$Publisher <- factor (my.comp$Publisher, levels = c(rownames(data.frame(rev(sort(table(my.comp$Publisher))))))) levels(my.comp$Publisher)[6:length(levels(my.comp$Publisher))] <- "other" #get data.frame for ggplot2 plotting my.mat <- as.matrix(table(my.comp$Publisher,my.comp$year)) my.publish <- data.frame(my.mat) #plot p <- ggplot(my.publish, aes(as.Date(Var2), Freq, group =Var1)) + geom_line(aes(colour = Var1, show_guide=FALSE)) + geom_point() + theme_bw() + scale_colour_brewer("OA Publisher",palette=2, type="qual") + xlab("Year") + ylab("UNIBI Contributions") + opts(legend.key=theme_rect(fill="white",colour="white")) #save plot ggsave(plot = p, "oapublisher2.png", h = 3.08, w = 7.2)
Zusammenfassung
Die vorgestellte Skizze erhebt Publikationsdaten für die Begleitung des Open-Access-Publizieren in wissenschaftlichen Zeitschriften mittels R. Sie legt das lokale Publikationsaufkommen dar und gleicht es mit dem DOAJ ab. Da die verwendeten Protokolle und Formate auf Digital-Library-Standards beruhen, können Hochschulen und akademische Einrichtungen, deren Repositorien oder Forschungsinformationssysteme diese Standards unterstützen, die vorgestellten Methoden wiederverwenden.
Die R-Routinen, die für das Berichtswesen des Publikationsfonds an der Universität Bielefeld verwendet werden, werden im Laufe des Jahres 2013 als Funktionsaufrufe reformuliert und als Open Source Distribution mit weiteren Auswertungsmöglichkeiten veröffentlicht.
(Najko Jahn)
Najko Jahn ist zugleich an der Universitätsbibliothek Bielefeld tätig
It’s the frei<tag> 2013 Countdown (4): Rien ne va plus!
Seit Inetbib’s Bet on Open Access and Open Science während des Sektempfangs bei der 12. InetBib-Tagung in Berlin sind nun schon zwei Wochen ins Land gegangen. Viele weitere Wochen werden folgen, bis wir in frühestens einem Jahr wissen, wer durch Wissen, Intuition oder Glück auf den richtigen Wettausgang gesetzt hat. Die präsentierte Auswertung zur Verteilung der Jetons auf die Felder des Wetttisches visualisiert das Wett-, bzw. “Setz”-Verhalten der teilnehmenden Expertinnen und Experten.
Folgende Ergebnisse stechen heraus:
– Die meisten Jetons wurden darauf gesetzt, dass es binnen der nächsten 18 Monate mindestens 50 Open-Access-Repositorien und -Publikationsdienste gibt, die DINI-zertifiziert sind. Dieses Vertrauen in DINI und die Verbreitung des Zertifikats ist beachtlich.
– Viel Vertrauen wird auch der GND entgegengebracht, denn die zweitmeisten Jetons wurden darauf gesetzt, dass Wikidata erst nach 18 Monaten oder später (also evtl. nie) die GND ablösen wird.
– Die aktuelle Frage, wann ein Zweitveröffentlichungsrecht vom Bundestag verabschiedet wird, zeigt wie weit die Meinungen darüber auseinander gehen. Es wurde doppelt so häufig darauf gesetzt, dass dieses lang ersehnte Gesetz von unseren Volksvertretern erst irgendwann nach 18 Monaten verabschiedet wird, als dass es binnen der nächsten 12 Monate kommt. Oder wie es Thomas Hartmann (MPDL) in seinem Vortrag auf der Inetbib-Tagung auf den Punkt brachte: Entweder dieses Gesetz ist bis zur parlamentarischen Sommerpause bis Anfang Juli 2013 umgesetzt oder weitere Jahre werden vergehen, bis ein Zweitveröffentlichungsrecht Realität wird.
Egal, wie die Wetten ausgehen, das Spiel hat durch die Einsätze und die sich daraus ergebenden Expertenprognosen eine interessante Diskussionsbasis für die zukünftige Entwicklung von Open Access und Open Science geliefert. Wir dürfen gespannt sein, welche Prognosen und Hoffnungen sich (nicht) erfüllen werden.
LIBREAS # 21 – Bilder, Graphen, Visualisierungen
„In the last ten years the area of Information Visualization has witnessed an exponential increase in its popularity. Diagrammatic reasoning and visual epistemology are becoming readily accepted methods of research in many academic domains.“
Man musste nicht unbedingt auf Gaia Scagnettis Grundlagenartikel in der aktuellen Ausgabe des Parsons Journal for Information Mapping (The Diagram of Information Visualization. In: PJIM, Vol. IV, Iss.4 PDF-Download) warten, um mitzubekommen, dass Informationsvisualisierung ein Thema der Stunde ist. Und zwar stabil schon seit einigen Jahren. Vielleicht lassen sich die auflaufenden Datenmengen u.a. im Zuge von Massendigitalisierungen auch gar nicht mehr anders in ihrer Komplexität wissenschaftlich überschauen als mit Verfahren der Visual Epistemology (o.ä.).
Als informationsvisualisierende Metabetrachtung zur Informationsvisualisierung – bzw. einfach als Überblicksartikel – ist der Beitrag durchaus eine Empfehlung, die wir vielleicht sogar als solche in der aktuellen LIBREAS-Ausgabe referenziert hätten, wäre er nur eine Woche früher erschienen. Oder LIBREAS #21 eine Woche später. Denn mehr oder weniger überraschend haben wir das Thema Visualisierung (+Bilder, +Graphen) für diese Ausgabe zum Schwerpunkt gewählt und eröffnen denn auch gleich mit einem Beitrag zur Diagrammatik. Alles weitere unter www.libreas.eu. Mehr zum Thema gibt es selbstverständlich auch dann und wann hier im Blog in der Kategorie LIBREAS.Visualisierung.
Inhaltsverzeichnis
Schwerpunkt: Bilder, Graphen, Visualisierungen
Linda Treude, Sascha Freyberg: Diagrammatik und Wissensorganisation
Martin Warnke: Explicit Art Historical Image Referencing on a Big Scale
Ben Kaden: Das Konzept Wunderkammer heute
Ivana Jovics: LIBREAS Fashion: Muster und Folklore. Ivana Jovics anziehende Statistikdiagramme. (bk)
Paul Vierkant: Global Distribution of Open Access Items
Freier Teil
Sibel Ulucan: Hybride Bibliothek – eine Begriffsneubestimmung
Rezensionen
[Rezension:] Ben Kaden: Kodex Jahrbuch: Die Digitale Bibliothek
Predicting the growth of PLoS ONE
Najko Jahn
Abstract: This first attempt calculates the annual growth of PLoS ONE and applies a seasonal trend analysis on these numbers. Between 2007-2011, 28,898 contributions were published in PLoS ONE, resulting in an annual growth rate of 62.17% for this period. Holt-Winters filtering for seasonal trend analysis predicts 18,284 published PLoS ONE contributions for 2012, and 31,978 for 2013 (compared to 13,797 in 2011). The findings raise the question about the duration of exponential growth of PLoS One publication volume, the transition of scholarly publication models, and, furthermore, the future of institutional Open Access publication funds.
Introduction
In recent posts [1], Martin Fenner presents approaches to visualise the performance of contributions published in Public Library of Science (PLoS) journals. Two APIs provided by PLoS were taken as the data source for these exploratory visualisations; one searches the PLoS domain for particular contributions, the other obtains Article Level Metrics (ALM) for each PLoS contribution. The latter is feeding into the ongoing work on Altmetrics (see eg Priem et al arXiv:1203.4745).
Collected in the work-in-progress plosOpenR GitHub repository, a joint collaboration of members from PLoS Article Level Metrics project, Bielefeld University Library and OpenAIRE was initiated.Our incentives for this work is to further enhance the existing R package rplos provided by rOpenSci. It shall allow crosswalks based on common funding information between data coming from the PLoS Journal server, including its collected metrics, and data on documents stored in institutional repositories. In a first step, this will be worked out as part of the FP7 funded OpenAIRE project which sets out to build an Open Access Infrastructure for European research.
In this post, I propose how to a) detect the annual growth rate of PLoS ONE contributions and b) try to forecast the further growth by applying Holt-Winters smoothing which is a time series analysis method to detect seasonal trends originating from economics [2].
Applying time series analysis on PLoS One is particularly interesting for at least two reasons: Firstly, PLoS ONE publishes each contribution right after acceptance. This forms a publishing model that differs mostly from print journals where accepted submissions are commonly published in issues. Secondly, its multi-disciplinary coverage distinguishes PLoS ONE from most other academic journals.
Methods
To act in accordance with the PLoS Search API Terms of Conditions, thereby avoiding API overload, I downloaded the latest dump of 47,430 PLoS contributions from April (available here). After table cleaning in Open Office, the resulting csv file is loaded into the R working space. In the following, I summarized the data by Journal name and publication date.
require(plyr) my.plos <- read.csv("plosalm.csv",header=T,sep=",") tt <- ddply(my.plos,.(Publication.Date,Journal), nrow) # format may differ according to pre-processing routines in OO date <- strptime(tt$Publication.Date,format="%d.%m.%Y") year <- date$year + 1900 my.data <- cbind(tt,date, year)
After this step, a summary of publications frequencies by each year and by PLoS journal can be obtained and exported as html table (see results, Table 1).
#table my.tab <- as.data.frame(tapply(my.data$V1, my.data[,c("Journal","year")],sum)) sum.journal <- rowSums(my.tab, na.rm=T) my.tab <- cbind(my.tab,sum.journal) sum.year <- colSums(my.tab, na.rm=T) my.tab <- rbind(my.tab,sum.year) #export as html table require("xtable") my.tab.x <- xtable(my.tab) digits(my.tab.x) <- 0 print(my.tab.x, type="html", file="summaryPLoS.html")
With regard to the so gathered annual number of contributions, the Compound Annual Growth rate (CAGR) can be obtained. CAGR is used in economics to measure a year-over-year growth of an investment. In our case, we calculate CAGR for the 5 years period from 2007-2011 to describe the growth of PLoS ONE contributions.
In order to predict the future growth of PLoS ONE contributions, the Holt-Winters was applied on the obtained data as this method is sensitive to seasonal trends (see results, Figure 1). In another blog post it is described how to apply Holt-Winters in R. In a first step, the subset the table for PLoS ONE was built. Afterwards, I calculate the number of monthly contributions. The zoo package provides the tools for achieving this task.
require(zoo) #plos one my.plos <- subset(my.data, Journal == "PLoS ONE") #as zoo object to monthly summary z <- zoo(my.plos$V1, my.plos$date) t.z <- aggregate(z, as.yearmon, sum) #time series object ts.q <- ts (t.z, start=c(2006,12), frequency = 12)
A time series object is created for the period beginning Dec 2006, where the first PLoS ONE contributions were published, until the end of March 2012. This forms the basis for calculating both the Holt-Winters distribution and the forecast of PLoS ONE growth until end of Dec 2013 with a confidence level of 0.95.
#Holt-Winter Distribution ts.holt <- HoltWinters(ts.q) forecast <- predict(ts.holt, n.ahead = 21, prediction.interval = T, level = 0.95) plot(ts.holt,forecast, frame.plot=F, xlim=c(2007,2014), ylim=c(0,4500), main="Holt-Winters filtering PLoS ONE contributions")
Results
The PLoS contributions by journal and year show a moderate growth in most journals but a strong growth in PLoS One (see Table 1).
2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012(Mar30) | ∑ | |
---|---|---|---|---|---|---|---|---|---|---|---|
PLoS Biology | 98 | 456 | 431 | 423 | 321 | 327 | 264 | 304 | 276 | 65 | 2965 |
PLoS Clinical Trials | 40 | 28 | 68 | ||||||||
PLoS Computational Biology | 72 | 168 | 251 | 287 | 376 | 414 | 418 | 121 | 2107 | ||
PLoS Genetics | 77 | 208 | 230 | 352 | 473 | 471 | 565 | 184 | 2560 | ||
PLoS Medicine | 68 | 434 | 487 | 346 | 250 | 199 | 193 | 206 | 45 | 2228 | |
PLoS Neglected Tropical Diseases | 42 | 179 | 224 | 350 | 445 | 126 | 1366 | ||||
PLoS ONE | 137 | 1230 | 2716 | 4405 | 6750 | 13797 | 4747 | 33782 | |||
PLoS Pathogens | 41 | 123 | 198 | 286 | 459 | 534 | 556 | 157 | 2354 | ||
∑ | 98 | 524 | 1055 | 1586 | 2646 | 4397 | 6400 | 9016 | 16263 | 5445 | 47430 |
On the basis of these data, a Compound Annual Growth Rate for PLoS ONE can be calculated for the 5 years period from 2007 to 2011. As a result, PLoS ONE’s annual growth rate is calculated as being 62.17 %.
Applying the Holt-Winters method, a plot can be generated, which gives first insights into the distribution (see Figure 1). The black lines highlight the observed contributions per month until the end of March 2012. The red line presents the fitted Holt-Winters values, starting in Dec 2007 until end of 2013. The blue lines highlight the upper and lower confidence intervals. The vertical line borders show observed and predicted values.
The exponential smoothing predicts the monthly observations well. However, note the sharp decline between December 2011 and January 2012. Predicting values for 2012 and 2013, following this approach, PLoS ONE will publish 18,284 contributions in 2012 (confidence interval between 15420 – 21149) and 31,978 (confidence interval between 22679 – 41279) contributions are predicted for 2013.
Discussion
If my attempt is sound, and I really do appreciate any critical comments, then the obtained growth rates will have consequences on the publishing landscape. No where else, such extreme growth rates of the general scientific literature were never reported before [3]. It also raises the question about the share of articles that do not receive any single citation. Known as the scientometric phenomena of “uncitedness”, this may be tackled by future analysis of PLoS ALM data. On a side note, the analysis reveals the seasonal decline between December 2011 and January 2012. This might, prima facie, resemble biases in the submission and selection processes in other journals [4]. This would also require further examination.
In conclusion, if these growths rates can exclusively be reported for PLoS ONE, the implications for the publishing landscape could be strong. Swift, cross-disciplinary publishing platforms could pressure the market leadership of the high impact subject-specific journals. Since PLoS ONE requires author publication fees for most of its contributions, institutional services and likewise funders covering these fees may have to consider whether this growth affects their funding activities to cover author publication fees. At least as part of our local Open Access Publication Funds of Bielefeld University activities we’ve been experiencing the growing importance in the last years, too.
The intial R source code can be found at plosOpenR GitHub repository: https://github.com/articlemetrics/plosOpenR.
I wish to acknowledge helpful comments and suggestions by Wolfram Horstmann.
Notes
[1]Example Visualizations using the PLoS Search and ALM APIs; What users do with PLoS ONE papers
[2] C. C. Holt (1957) Forecasting trends and seasonals by exponentially weighted moving averages, ONR Research Memorandum, Carnegie Institute of Technology 52. P. R. Winters (1960) Forecasting sales by exponentially weighted moving averages, Management Science 6, 324–342. Useful Introduction: P. Goodwin (2010) The Holt-Winters Approach to Exponential Smoothing: 50 Years Old and Going Strong. Forecast Spring 2010.
[3] P. Weingart (2003) Wissenschaftssoziologie, Bielefeld: transcript, pp. 35 -39.
[4] L. Bormann & H.D. Daniel (2010) Seasonal bias in editorial decisions? A study using data from chemistry, Learned Publishing, 24, 325-328.
#newlis – Zwischen #innovation, #Anspruch und #icamp12

Auf dem Weg zu einer neuen OA-Zeitschrift für die deutschsprachige Bibliotheks- und Informationswissenschaft? Das Twitter-Kommunikationsnetzwerk #newlis.
Tweets stecken trotz ihrer 140 Zeichen voller Entitäten, die potentiell für unterschiedliche bibliotheks- und informationswissenschaftliche Fragestellungen interessant sind. So lassen sich Links auf Publikationen, die in Tweets erwähnt werden, für die Messung ihrer unmittelbaren Rezeption oder Hashtags und user-mentions für die Explorationen eines Kommunikationsnetzwerkes heranziehen (siehe ua LIBREAS Tag Twitter). Bis vor kurzem war die Extraktion dieser Eintitäten über die Twitter Search API allerdings nicht explizit in den Metadaten ausgezeichnet, was im Schluss zu ungenauen, und häufig auch unansehnlichen Experimenten mit Linkresolvern und Regulären Ausdrücken führte.
Seit Dezember 2011 exponiert Twitter nun auch die sogenannten Tweet-Entitäten (Tweet Entities), womit sich Medienarten, URLs, Benutzer und Hashtags zielgenau aggregrieren lassen. Auf GitHub stehen nun vier an Hilfsfunktionen in R zur Verfügung, die auf die Erweiterung der Twitter Search API aufsetzen und über die Suche nach einen Hashtag die netzwerkanalytische Exploration unterstützen.
https://github.com/njahn82/twitter
Kommunikationsnetzwerk #newlis
Als Antwort auf die Ankündigung, dass die von der Zentral- und Landesbibliothek Berlin herausgegebene Zeitschrift BIBLIOTHEKSDIENST ab 2013 bei De Gruyter erscheint, wird unter #newlis die Neugründung einer reinen Open Access Zeitschrift für die deutschsprachige Bibliotheks- und Informationswissenschaft diskutiert und Strategien in einem Etherpad gesammelt.
Mit der Hilfsfunktion hash.search.rt lassen sich Tweets über einen Hashtag aggregieren. Diese ordnet dabei tabellarisch einem Ersteller eines Tweets den von ihm in diesem Tweet erwähnten weiteren Nutzern zu.
Damit lässt sich eine Kantenliste, die die Grundlage für die obige Visualisierung bildet. Am Beispiel von igraph
#functions under https://github.com/njahn82/twitter/tree/master/Twitter require(R.utils) require(igraph) sourceDirectory("") # search with hashtag hash.search.rt <- ("newlis") #prepare network data my.graph <- graph.data.frame(my.data[,c(2,3)]) #prepare plot V(my.graph)$label = V(my.graph)$name V(my.graph)$label.cex = sqrt(degree(my.graph))*0.4 V(my.graph)$size = sqrt(degree(my.graph))*2 V(my.graph)$frame.color = NA V(my.graph)$color = "#E41A1C" #plot + save png("testgraph.png") plot(my.graph,layout=layout.fruchterman.reingold,edge.arrow.size=0.2,vertex.label.color = "gray20") dev.off()
(nj)
Noch wenige Stunden mit TwapperKeeper!
Ungeachtet der Frage nach dem Wert von Twitter für die Bemessung wissenschaftlicher Kommunikationen (vgl. Die Buzzermeter. Warum die Tweetmetrics den Menschen stärker in den Blick nehmen sollten) wird am 6. Januar mit TwapperKeeper ein Online-Archiv vom Netz genommen, das der Debatte eine wichtige, non-propritäre Quelle für zukünftige Twitter-Studien hätte bieten können.
Wie kann ich meine Archive sichern?
Wir haben hier bereits früh einen Weg dargelegt, wie sich Archive leicht anhand eines Hash-Tags aus TwapperKeeper heraus sichern lassen, was in viele Verbesserungen und Alternativen mündete:
- Free the tweets! Export TwapperKeeper archives using Google Spreadsheet
- Rescuing Twapperkeeper Archives Before They Vanish
- Free (and rebuild) the tweets! Export TwapperKeeper archives using Google Refine
Dank dieser weitaus offeneren und elaborierteren Arbeiten ist es in den nächsten Stunden noch möglich, persönlich, organisatorisch oder für die Begleitforschung bedeutsame Archive zu sichern.
Was uns fehlen wird?
Am Beispiel der Twitter-Kommunikation während der Bibliothekartage der Jahre 2010 (#bibtag10) und 2011 (#bibtag11) wird deutlich, welches Potential TwapperKeeper etwa für längerfristige Untersuchungen der (bibliothekarischen) Konferenzkommunikation über Twitter hätte spielen können. Die folgende Skizze soll einen Einstieg in die Fragestellung bieten, wer wen im Rahmen der Bibliothekartage 2010 und 2011 erwähnt bzw. referenziert und wer sich überhaupt an der Kommunikation beteiligt hat.
Zum Zoomen als pdf
Alternativen zu TwapperKeeper?!
#oebt11 : Echtzeit – Visualisierung und Download von Tweets
kann jemand ein Archiv bei twapperkeeper für den Hashtag#oebt11 einrichten? Hab mit zwei Archiven das Gratislimit schon überschritten
beschreibt librarymistress ein klassisches Problem des Social-Media Monitorings anhand von Twitter. Zwar bestehen Online-Archive für Tweets, allerdings führt die rigide Twitter-Politik dazu, dass Services wie TwapperKeeper keinen benutzerfreundlichen Download der Daten für die eigene Tabellenkalkulation anbieten dürfen (siehe TwapperKeeper Blog).
Als Alternativen bieten R und der neue Cloud-Computing Service OpenCPU Möglichkeiten, sich seinen eigenen Echtzeit-Export inklusive Visualisierung anzulegen .
Echtzeit-Export als csv, unter
http://beta1.opencpu.org/R/call/store:tmp/8f81a308a4f8898f0aff6ba41bead5e4/csv?tag=%22oebt11%22
Echtzeit-Visualisierung:
http://beta1.opencpu.org/R/call/store:tmp/8f81a308a4f8898f0aff6ba41bead5e4/png?tag=%22oebt11%22
(more…)
Open Access Journals – eine Weltkarte
Das Directory of Open Access Journals (DOAJ) verzeichnet qualitätsgeprüfte wissenschaftliche Zeitschriften, die unter Kriterien des Open Access publizieren. Bis dato sind 6936 Zeitschriften dokumentiert und auch LIBREAS.Library Ideas ist auf Artikelebene erfasst (vgl. hier).
Angeregt von einer Vielzahl an Aktivitäten, Open Access Entwicklungen über Visualisierungen global zu erfassen, wie Open Access Map oder Repository66.org Repository Maps, setzen wir passend zur Reisezeit unsere Rubrik LIBREAS.Visualisierung fort. Auch in diesem Fall erfolgt die Datenvisualisierung mit R. Neben der obigen Weltkarte können über eine Google API dynamische Karten aus R heraus gewonnen werden.
leave a comment