LIBREAS.Library Ideas

Querverweise zwischen Zeitschriftenaufsätzen und Forschungsdaten: rebi, ein R-Paket für Europe PMC

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 11. April 2013

Seit wenigen Tagen steht eine erste Version des R-Pakets rebi als Teil von rOpenSci zur Verfügung. rebi ermöglicht die Aggregation und Exploration der in Europe PubMed Central (Europe PMC) indexierten Veröffentlichungen und Forschungsdaten.

Zu diesem Zwecke fragt rebi den kürzlich veröffentlichten Europe PMC RESTful Web Service ab. Die API ergänzt das bereits seit längerem bestehende SOAP-Interface, das beispielsweise im Projekt OpenAIREplus die Basis für einen disziplinären Demonstrator bildete.

Ein Ergebnis des Demonstrators – die Erschließung und Sichtbarmachung von Querverweisen zwischen Publikationen und Forschungsdaten am European Bioinformatics Institute (EBI) – nutzt das Repository PUB – Publikationen an der Universität Bielefeld nach. Bis dato konnten rund 70.000 Querverweise zwischen EBI-Datenbanken wie dem European Nucleotide Archive (ENA) oder UniProt und 600 biowissenschaftlichen Veröffentlichungen automatisch identifiziert und auf Artikelebene eingebunden werden.

rebi war zunächst für die statistische Begleitung der EBI-Anreicherung in institutionelle Forschungsservices gedacht. Jedoch erlaubt das R-Paket weitere Dimensionen der Datenexploration, wie z.B die der Querweise auf Ebene eines Journals.

rebi

Die obige Abbildung zeigt die Verteilung der in Europe PMC indexierten Artikel der Zeitschrift PLOS Genetics nach Publikationsjahr. EBI-Services verweisen zu 2.226 Veröffentlichungen (Variable “Y”) von insgesamt 3.499 indexierten Beiträgen (63,61 %). Die Diskrepanz der Verteilung für das Jahr 2013 lässt sich mit dem Zeitfenster erklären, das die Datenspezialisten am EBI für ihre häufig auch intellektuelle Erschließung der Verweise nach der Journal-Veröffentlichung benötigen. Daher sollten entsprechenden Auswertungen und auch die Aggregation für eigene Bibliotheksanwendungen regelmäßig wiederholt werden.

Mit rebi lässt sich das obige Säulendiagramm mit fünf einfachen Funktionsaufrufen erstellen.

require(rebi)
#get metadata for PLOS Genomics by ISSN
plos.genetics <- searcheuropmc(query="ISSN:1553-7404")

#format year published to date object
plos.genetics$pubYear <-format(plos.genetics$pubYear, format="%Y")

#relevel according to frequency of occurrence Cross-Links to EBI databases
plos.genetics$hasDbCrossReferences <- factor (plos.genetics$hasDbCrossReferences, 
levels = c(rownames(data.frame(rev(sort(table(plos.genetics$hasDbCrossReferences)))))))

#plot
require(ggplot2)

p <- ggplot(plos.genetics, aes(pubYear, ..count.., fill = hasDbCrossReferences)) + 
geom_bar() + theme_bw() +
scale_fill_brewer("EBI\nCross-References",palette="Accent") + 
xlab("Year") + ylab("PLOS Genetics Articles") + 
opts(legend.key=theme_rect(fill="white",colour="white"))

#save plot
ggsave(plot = p, "rebi.png", h = 3.08, w = 7.2)

rebi soll kontinuierlich erweitert werden und enthält derzeit neben der allgemeinen Suchfunktion Aufrufe für die Gewinnung der bibliographischen Metadaten der referenzierten Veröffentlichungen und Zitationen sowie die Berechnung der Anzahl der EBI-Querverweise je Artikel. Weitere rebi-Funktionen können die Gewinnung der Nukleinsäuresequenzen etwa im FASTA-Format ebenso ermöglichen wie die Aggregation der vom EBI automatisch extrahierten Schlagwörter und Taxonomien.

Literatur

McEntyre J.R., Ananiadou S., Andrews S., Black W.J., Boulderstone R., Buttery P., Chaplin D., Chevuru S., Cobley N., Coleman L.-A., et al. UKPMC: a full text article resource for the life sciences. Nucleic Acids Res. 2011;39:D58–D65.PMC3013671

(Najko Jahn)

Institutionelles Publikationsaufkommen in Open Access Zeitschriften — ein Vorschlag mit R

Posted in LIBREAS.Visualisierung by libreas on 2. April 2013

Das DFG Programm Open Access Publizieren fördert Hochschulen, die dauerhafte und verlässliche Strukturen für die Begleichung von Artikelbearbeitungsgebühren, die für die Veröffentlichung in Open-Access-Zeitschriften erhoben werden, an ihrer Einrichtung etablieren. In diesem Sinne erfordert die Antragstellung belastbare Angaben zum entsprechenden Publikationsaufkommen der Hochschule in OA-Zeitschriften und eine transparente Darlegung der Datenerhebung.

Die Universität Bielefeld beteiligt sich mit ihrem Publikationsfonds bereits seit 2011 an der DFG-Ausschreibung. Um die jährlichen Berichtserfordernisse mit möglichst geringem Aufwand über das Institutionelle Repositorium “PUB — Publikationen an der Universität Bielefeld” zu beantworten, basiert das Berichtswesen auf Standards der Digital Library Community (SRU, CQL, MODS) und Routinen der statistischen Programmiersprache R. Somit lassen sich Datenerhebung und -auswertung nicht nur transparent nachvollziehen und reproduzieren, sondern, dank der Standardisierung, auch an anderen Hochschulen wiederverwenden.

Eine Beispiel für eine Anforderung der DFG im Programm “Open Access Publizieren” ist die Darlegung des institutionellen Publikationsaufkommens in Open-Access-Zeitschriften je Verlag.

Abbildung 1: Jährliche Verteilung Open Access Zeitschriftenartikel an der Universität Bielefeld auf Verlage

Abbildung 1: Jährliche Verteilung Open Access Zeitschriftenartikel an der Universität Bielefeld auf Verlage

Abbildung 1 stellt die fünf häufigsten Verlage, auf die Open-Access-Veröffentlichungen an der Universität Bielefeld entfallen, dar. Ein solches Diagramm erlaubt die kontinuierliche Prüfung möglicher Mitgliedschaften oder Vorauszahlungen. Solche Angebote der OA-Verlage versprechen eine Verringerung des Verwaltungsaufwands für Forschende und Bibliothek.

Ebenfalls zeigt die Abbildung, dass sich die Publikationsmöglichkeiten deutlich ausdifferenzieren. Zeitschriftenartikel in Verlagen, die zugunsten der Übersichtlichkeit in die Kategorie “other” zusammengefasst sind, veröffentlichen meistens sehr junge oder kleine Journals. Diese sind häufig (noch) nicht Teil der Master Journal List des Web of Science und lassen sich daher am Besten über eine Erhebung vor Ort eruieren. Am Beispiel der Universität Bielefeld umfasst die Kategorie “other” OA-Journale wie das Journal of Social Science Education (JSSE), das an der UB Bielefeld gehostet wird, oder die von der DFG geförderte Zeitschrift Social Work and Society.

Im folgenden werden die einzelnen Schritte zur Gewinnung der Abbildung 1 mit R dargelegt:

1. Schritt: Publikationsaufkommen 2007 – 2012

Alle in PUB verzeichneten Publikationen für den Zeitraum 2007 — 2012 lassen sich über SRU/CQL abfragen.

Die standardmäßige Ausgabe der Daten erfolgt in MODS. Relevante Felder lassen sich mit R wie folgt parsen.

require(RCurl)
require(XML)

#all

url <- "http://pub.uni-bielefeld.de/sru?version=1.1&operation=searchRetrieve&query=publishingYear%20%3E%202006%20AND%20publishingYear%20%3C%202013&maximumRecords=1000"

id <- c()
year <- c()
genre <- c()

for(i in seq(0, 40000, by = 1000)) {
  
  url.d<-paste(url, "&startRecord=", i , sep = "")
  
  doc <- xmlTreeParse(url.d, useInternal=T)
  id.tmp <- xpathSApply(doc,"//r:recordInfo//r:recordIdentifier", 
  namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  year.tmp <- xpathSApply(doc,"//r:dateIssued", 
  namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  genre.tmp <- xpathSApply(doc,"//r:genre", 
  namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  if(length(id.tmp) == 0)
    break
  else
    id <- c(id, id.tmp)
  year <- c(year,year.tmp)
  genre <- c(genre,genre.tmp)
  
  df.tmp <- data.frame (id, year, genre)
  
}

Hieraus lässt sich sowohl die Gesamtanzahl aller registrierten Publikationsnachweise eruieren wie die Anzahl der Zeitschriftenartikel im Zeitraum 2007 bis 2012.

#gesamt
dim(df.tmp)

#Zeitschriftenartikel
nrow(df.tmp[df.tmp$genre == "article",])

#Anteil in %

nrow(df.tmp[df.tmp$genre == "article",]) / nrow(df.tmp) *100

Insgesamt sind zum 31.3.2013 13.393 Publikationen registriert, 5.960 Veröffentlichungen entfallen auf Zeitschriftenartikel, was einen Anteil am Publikationsaufkommen von rund 44,5 % entspricht.

2. Schritt: Gewinnung ISSN

Der zweite Schritt umfasst die Aggregation der ISSN oder EISSN, die für den eindeutigen Abgleich mit der Journalliste des DOAJ benötigt wird:


#subset journal article

my.journal <- df.tmp[df.tmp$genre == "article",]

#query for issn/eissn

df.enrich <- data.frame()

u <-  "http://pub.uni-bielefeld.de/sru?version=1.1&operation=searchRetrieve&query=id=%22"

for (i in unlist(my.journal$id)) {
  
  url.t <-paste(u,i,"%22", sep="")
  
  doc = xmlTreeParse (url.t, useInternal=T)

issn <- xpathSApply(doc,"//r:relatedItem//r:identifier[@type='issn']",namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  if (length(issn) == 0) {
    
    issn <- "notFound"
    
  } else { issn <- issn }


  df.all.tmp <- data.frame(i, issn)

  df.enrich <- rbind(df.enrich, df.all.tmp)

}


#join with data.frame 
journal.tmp <- merge(df.ernrich, my.journal, by.x="i", by.y="id")

ISSN ist in PUB kein Pflichtfeld, um den Registrierungsaufwand der Forschenden möglichst niedrigschwellig zu gestalten. Fehlende ISSN können jedoch ex post durch den PUB Support nachgepflegt werden.

Eine solche Tabelle zur nachträglichen Datenpflege lässt sich mit R wie folgt generieren:

# exclude records without issn

#subset
my.miss <- journal.tmp[journal.tmp$issn =="notFound",]

nrow(my.miss) # number of records without issn  (174)

#export csv

wirte.csv(my.miss, "missingISSN.csv")

3. Schritt: Abgleich DOAJ

Das Directory of Open Access Journals (DOAJ) bietet eine Liste aller verzeichneten Open-Access-Zeitschriften als csv-Download an:

http://www.doaj.org/doaj?func=csv

Das Laden und der Abgleich über ISSN und EISSN mit R:


#load DOAJ data
doaj <- read.csv("http://www.doaj.org/doaj?func=csv", header = TRUE, sep=",")

#merge by ISSN/EISSN

doaj.issn <- subset(journal.tmp, issn %in% doaj$ISSN)

doaj.essn <- subset(journal.tmp, issn %in% doaj$EISSN)

#combine

doaj.comp <- rbind(doaj.issn, doaj.essn)

#add additional doaj info

test.1 <- merge(doaj.issn, doaj, by.x="issn",by.y="ISSN")

test.2 <- merge(doaj.essn, doaj, by.x="issn",by.y="EISSN")

colnames(test.2) <- colnames(test.1)

my.comp <- rbind(test.1, test.2)

#exclude duplicates

my.comp <- my.comp[!duplicated(my.comp$i),]

Insgesamt lassen sich so 496 Artikel in DOAJ-Zeitschriften an der Universität Bielefeld für die Jahre 2007 – 2012 identifizieren.

4. Schritt Datenexploration

Das data.frame my.comp bildet nun die Datengrundlage für die Visualisierung der Verteilung nach Verlagen, in denen die zuvor identifizierten Zeitschriftenartikel erschienen sind.


require(ggplot2)

#normalize year
my.comp$year <- as.numeric(format(my.comp$year, format = "%Y")) 

#relevel Publisher 

my.comp$Publisher <- factor (my.comp$Publisher, levels = c(rownames(data.frame(rev(sort(table(my.comp$Publisher)))))))

levels(my.comp$Publisher)[6:length(levels(my.comp$Publisher))] <- "other"

#get data.frame for ggplot2 plotting
my.mat <- as.matrix(table(my.comp$Publisher,my.comp$year))

my.publish <- data.frame(my.mat)

#plot

p <- ggplot(my.publish, aes(as.Date(Var2), Freq, group =Var1)) + 
geom_line(aes(colour = Var1, show_guide=FALSE)) + 
geom_point() + 
theme_bw() +
scale_colour_brewer("OA Publisher",palette=2, type="qual") + 
xlab("Year") + ylab("UNIBI Contributions") + 
opts(legend.key=theme_rect(fill="white",colour="white"))

#save plot
ggsave(plot = p, "oapublisher2.png", h = 3.08, w = 7.2)

Zusammenfassung

Die vorgestellte Skizze erhebt Publikationsdaten für die Begleitung des Open-Access-Publizieren in wissenschaftlichen Zeitschriften mittels R. Sie legt das lokale Publikationsaufkommen dar und gleicht es mit dem DOAJ ab. Da die verwendeten Protokolle und Formate auf Digital-Library-Standards beruhen, können Hochschulen und akademische Einrichtungen, deren Repositorien oder Forschungsinformationssysteme diese Standards unterstützen, die vorgestellten Methoden wiederverwenden.

Die R-Routinen, die für das Berichtswesen des Publikationsfonds an der Universität Bielefeld verwendet werden, werden im Laufe des Jahres 2013 als Funktionsaufrufe reformuliert und als Open Source Distribution mit weiteren Auswertungsmöglichkeiten veröffentlicht.

(Najko Jahn)

Najko Jahn ist zugleich an der Universitätsbibliothek Bielefeld tätig

It’s the frei<tag> 2013 Countdown (4): Rien ne va plus!

Posted in LIBREAS.Visualisierung by libreas on 18. März 2013

IMG_3307

Seit Inetbib’s Bet on Open Access and Open Science während des Sektempfangs bei der 12. InetBib-Tagung in Berlin sind nun schon zwei Wochen ins Land gegangen. Viele weitere Wochen werden folgen, bis wir in frühestens einem Jahr wissen, wer durch Wissen, Intuition oder Glück auf den richtigen Wettausgang gesetzt hat. Die präsentierte Auswertung zur Verteilung der Jetons auf die Felder des Wetttisches visualisiert das Wett-, bzw. “Setz”-Verhalten der teilnehmenden Expertinnen und Experten.

Heatmap of Open Access Bet

Folgende Ergebnisse stechen heraus:

- Die meisten Jetons wurden darauf gesetzt, dass es binnen der nächsten 18 Monate mindestens 50 Open-Access-Repositorien und -Publikationsdienste gibt, die DINI-zertifiziert sind. Dieses Vertrauen in DINI und die Verbreitung des Zertifikats ist beachtlich.

- Viel Vertrauen wird auch der GND entgegengebracht, denn die zweitmeisten Jetons wurden darauf gesetzt, dass Wikidata erst nach 18 Monaten oder später (also evtl. nie) die GND ablösen wird.

- Die aktuelle Frage, wann ein Zweitveröffentlichungsrecht vom Bundestag verabschiedet wird, zeigt wie weit die Meinungen darüber auseinander gehen. Es wurde doppelt so häufig darauf gesetzt, dass dieses lang ersehnte Gesetz von unseren Volksvertretern erst irgendwann nach 18 Monaten verabschiedet wird, als dass es binnen der nächsten 12 Monate kommt. Oder wie es Thomas Hartmann (MPDL) in seinem Vortrag auf der Inetbib-Tagung auf den Punkt brachte: Entweder dieses Gesetz ist bis zur parlamentarischen Sommerpause bis Anfang Juli 2013 umgesetzt oder weitere Jahre werden vergehen, bis ein Zweitveröffentlichungsrecht Realität wird.

Egal, wie die Wetten ausgehen, das Spiel hat durch die Einsätze und die sich daraus ergebenden Expertenprognosen eine interessante Diskussionsbasis für die zukünftige Entwicklung von Open Access und Open Science geliefert. Wir dürfen gespannt sein, welche Prognosen und Hoffnungen sich (nicht) erfüllen werden.

LIBREAS # 21 – Bilder, Graphen, Visualisierungen

Posted in LIBREAS aktuell, LIBREAS.Visualisierung by libreas on 24. Oktober 2012

“In the last ten years the area of Information Visualization has witnessed an exponential increase in its popularity. Diagrammatic reasoning and visual epistemology are becoming readily accepted methods of research in many academic domains.”

Man musste nicht unbedingt auf Gaia Scagnettis Grundlagenartikel in der aktuellen Ausgabe des Parsons Journal for Information Mapping (The Diagram of Information Visualization. In: PJIM, Vol. IV, Iss.4 PDF-Download) warten, um mitzubekommen, dass Informationsvisualisierung ein Thema der Stunde ist. Und zwar stabil schon seit einigen Jahren. Vielleicht lassen sich die auflaufenden Datenmengen u.a. im Zuge von Massendigitalisierungen auch gar nicht mehr anders in ihrer Komplexität wissenschaftlich überschauen als mit Verfahren der Visual Epistemology (o.ä.).

Als informationsvisualisierende Metabetrachtung zur Informationsvisualisierung – bzw. einfach als Überblicksartikel – ist der Beitrag durchaus eine Empfehlung, die wir vielleicht sogar als solche in der aktuellen LIBREAS-Ausgabe referenziert hätten, wäre er nur eine Woche früher erschienen. Oder LIBREAS #21 eine Woche später. Denn mehr oder weniger überraschend haben wir das Thema Visualisierung (+Bilder, +Graphen) für diese Ausgabe zum Schwerpunkt gewählt und eröffnen denn auch gleich mit einem Beitrag zur Diagrammatik. Alles weitere unter www.libreas.eu. Mehr zum Thema gibt es selbstverständlich auch dann und wann hier im Blog in der Kategorie LIBREAS.Visualisierung.

Cover LIBREAS 21 - Informationsvisualisierung

Inhaltsverzeichnis

Schwerpunkt: Bilder, Graphen, Visualisierungen

Linda Treude, Sascha Freyberg: Diagrammatik und Wissensorganisation

Martin Warnke: Explicit Art Historical Image Referencing on a Big Scale

Ben Kaden: Das Konzept Wunderkammer heute

Ivana Jovics: LIBREAS Fashion: Muster und Folklore. Ivana Jovics anziehende Statistikdiagramme. (bk)

Paul Vierkant: Global Distribution of Open Access Items

Sabine Wolf: Augmented Reality – Neue Möglichkeiten für Bibliotheken, Services für Kunden einfach darzustellen

Karsten Schuldt: Der Katalog: Repräsentation von Medien als Geschichte des Denkens über Wissen, Information, Medien, Nutzerinnen und Nutzern

Bernd Juraschko: Die Wiener Klassifikation als Instrument für Bildbeschreibungen in Museen und Bibliotheken

Freier Teil

Sibel Ulucan: Hybride Bibliothek – eine Begriffsneubestimmung

Ben Kaden, Karsten Schuldt: Welcher Art Wissenschaft soll die (Bibliotheks- und) Informationswissenschaft sein?: Ein Workshop-Bericht

Rezensionen

[Rezension:] Brigitte Lutz: Holderried, Angelika; Lücke, Birgit, Hrsg. (2012): Handbuch Schulbibliothek. Planung, Betrieb, Nutzung

[Rezension:] Ben Kaden: Kodex Jahrbuch: Die Digitale Bibliothek

Predicting the growth of PLoS ONE

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 25. Juli 2012

Najko Jahn

Abstract: This first attempt calculates the annual growth of PLoS ONE and applies a seasonal trend analysis on these numbers. Between 2007-2011, 28,898 contributions were published in PLoS ONE, resulting in an annual growth rate of 62.17% for this period. Holt-Winters filtering for seasonal trend analysis predicts 18,284 published PLoS ONE contributions for 2012, and 31,978 for 2013 (compared to 13,797 in 2011). The findings raise the question about the duration of exponential growth of PLoS One publication volume, the transition of scholarly publication models, and, furthermore, the future of institutional Open Access publication funds.

Introduction

In recent posts [1], Martin Fenner presents approaches to visualise the performance of contributions published in Public Library of Science (PLoS) journals. Two APIs provided by PLoS were taken as the data source for these exploratory visualisations; one searches the PLoS domain for particular contributions, the other obtains Article Level Metrics (ALM) for each PLoS contribution. The latter is feeding into the ongoing work on Altmetrics (see eg Priem et al arXiv:1203.4745).

Collected in the work-in-progress plosOpenR GitHub repository, a joint collaboration of members from PLoS Article Level Metrics project, Bielefeld University Library and OpenAIRE was initiated.Our incentives for this work is to further enhance the existing R package rplos provided by rOpenSci. It shall allow crosswalks based on common funding information between data coming from the PLoS Journal server, including its collected metrics, and data on documents stored in institutional repositories. In a first step, this will be worked out as part of the FP7 funded OpenAIRE project which sets out to build an Open Access Infrastructure for European research.

In this post, I propose how to a) detect the annual growth rate of PLoS ONE contributions  and b) try to forecast the further growth by applying Holt-Winters smoothing which is a time series analysis method to detect seasonal trends originating from economics [2].

Applying time series analysis on PLoS One is particularly interesting for at least two reasons: Firstly, PLoS ONE publishes each contribution right after acceptance. This forms a publishing model that differs mostly from print journals where accepted submissions are commonly published in issues. Secondly, its multi-disciplinary coverage distinguishes PLoS ONE from most other academic journals.

Methods

To act in accordance with the PLoS Search API Terms of Conditions, thereby avoiding API overload, I downloaded the latest dump of  47,430 PLoS contributions from April (available here). After table cleaning in Open Office, the resulting csv file is loaded into the R working space. In the following, I summarized the data by Journal name and publication date.

require(plyr)

my.plos <- read.csv("plosalm.csv",header=T,sep=",")

tt <- ddply(my.plos,.(Publication.Date,Journal), nrow)
# format may differ according to pre-processing routines in OO
date <- strptime(tt$Publication.Date,format="%d.%m.%Y")
year <- date$year + 1900

my.data <- cbind(tt,date, year)

After this step, a summary of publications frequencies by each year and by PLoS journal can be obtained and exported as html table (see results, Table 1).

#table
my.tab <- as.data.frame(tapply(my.data$V1, my.data[,c("Journal","year")],sum))

sum.journal <- rowSums(my.tab, na.rm=T)
my.tab <- cbind(my.tab,sum.journal)

sum.year <- colSums(my.tab, na.rm=T)
my.tab <- rbind(my.tab,sum.year)

#export as html table
require("xtable")
my.tab.x <- xtable(my.tab)
digits(my.tab.x) <- 0
print(my.tab.x, type="html", file="summaryPLoS.html")

With regard to the so gathered annual number of contributions, the Compound Annual Growth rate (CAGR) can be obtained. CAGR is used in economics to measure a year-over-year growth of an investment. In our case, we calculate CAGR for the 5 years period from 2007-2011 to describe the growth of PLoS ONE contributions.

In order to predict the future growth of PLoS ONE contributions, the Holt-Winters was applied on the obtained data as this method is sensitive to seasonal trends (see results, Figure 1). In another blog post it is described how to apply Holt-Winters in R. In a first step, the subset the table for PLoS ONE was built. Afterwards, I calculate the number of monthly contributions. The zoo package provides the tools for achieving this task.

require(zoo)
#plos one
my.plos <- subset(my.data, Journal == "PLoS ONE")

#as zoo object to monthly summary
z <- zoo(my.plos$V1, my.plos$date)

t.z <- aggregate(z, as.yearmon, sum)
#time series object
ts.q <- ts (t.z, start=c(2006,12), frequency = 12)

A time series object is created for the period beginning Dec 2006, where the first PLoS ONE contributions were published, until the end of March 2012. This forms the basis for calculating both the Holt-Winters distribution and the forecast of PLoS ONE growth until end of Dec 2013 with a confidence level of 0.95.

#Holt-Winter Distribution
ts.holt <- HoltWinters(ts.q)

forecast <- predict(ts.holt, n.ahead = 21, prediction.interval = T, level = 0.95)

plot(ts.holt,forecast, frame.plot=F, xlim=c(2007,2014), ylim=c(0,4500),
     main="Holt-Winters filtering PLoS ONE contributions")

Results

The PLoS contributions by journal and year show a moderate growth in most journals but a strong growth in PLoS One (see Table 1).

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012(Mar30)
PLoS Biology 98 456 431 423 321 327 264 304 276 65 2965
PLoS Clinical Trials 40 28 68
PLoS Computational Biology 72 168 251 287 376 414 418 121 2107
PLoS Genetics 77 208 230 352 473 471 565 184 2560
PLoS Medicine 68 434 487 346 250 199 193 206 45 2228
PLoS Neglected Tropical Diseases 42 179 224 350 445 126 1366
PLoS ONE 137 1230 2716 4405 6750 13797 4747 33782
PLoS Pathogens 41 123 198 286 459 534 556 157 2354
98 524 1055 1586 2646 4397 6400 9016 16263 5445 47430
Table 1: PLoS contributions by journal and year

On the basis of these data, a Compound Annual Growth Rate for PLoS ONE can be calculated for the 5 years period from 2007 to 2011. As a result, PLoS ONE’s annual growth rate is calculated as being 62.17 %.

Applying the Holt-Winters method, a plot can be generated, which gives first insights into the distribution (see Figure 1). The black lines highlight the observed contributions per month until the end of March 2012. The red line presents the fitted Holt-Winters values, starting in Dec 2007 until end of 2013. The blue lines highlight the upper and lower confidence intervals. The vertical line borders show observed and predicted values.

The exponential smoothing predicts the monthly observations well. However, note the sharp decline between December 2011 and January 2012. Predicting values for 2012 and 2013, following this approach, PLoS ONE will publish 18,284 contributions in 2012 (confidence interval between 15420 – 21149) and 31,978 (confidence interval between 22679 – 41279) contributions are predicted for 2013.

Discussion

If my attempt is sound, and I really do appreciate any critical comments, then the obtained growth rates will have consequences on the publishing landscape. No where else, such extreme growth rates of the general scientific literature were never reported before [3]. It also raises the question about the share of articles that do not receive any single citation. Known as the scientometric phenomena of “uncitedness”, this may be tackled by future analysis of PLoS ALM data. On a side note, the analysis reveals the seasonal decline between December 2011 and January 2012. This might, prima facie, resemble biases in the submission and selection processes in other journals [4]. This would also require further examination.

In conclusion, if these growths rates can exclusively be reported for PLoS ONE, the implications for the publishing landscape could be strong. Swift, cross-disciplinary publishing platforms could pressure the market leadership of the high impact subject-specific journals. Since PLoS ONE requires author publication fees for most of its contributions, institutional services and likewise funders covering these fees may have to consider whether this growth affects their funding activities to cover author publication fees. At least as part of our local Open Access Publication Funds of Bielefeld University activities we’ve been experiencing the growing importance in the last years, too.

The intial R source code can be found at plosOpenR GitHub repository: https://github.com/articlemetrics/plosOpenR.

I wish to acknowledge helpful comments and suggestions by Wolfram Horstmann.

Notes

[1]Example Visualizations using the PLoS Search and ALM APIs; What users do with PLoS ONE papers

[2] C. C. Holt (1957) Forecasting trends and seasonals by exponentially weighted moving averages, ONR Research Memorandum, Carnegie Institute of Technology 52. P. R. Winters (1960) Forecasting sales by exponentially weighted moving averages, Management Science 6, 324–342. Useful Introduction: P. Goodwin (2010) The Holt-Winters Approach to Exponential Smoothing: 50 Years Old and Going Strong. Forecast Spring 2010.

[3] P. Weingart (2003) Wissenschaftssoziologie, Bielefeld: transcript, pp. 35 -39.

[4] L. Bormann & H.D. Daniel (2010) Seasonal bias in editorial decisions? A study using data from chemistry, Learned Publishing, 24, 325-328.

#newlis – Zwischen #innovation, #Anspruch und #icamp12

Posted in LIBREAS.Visualisierung by libreas on 17. Juni 2012

Auf dem Weg zu einer neuen OA-Zeitschrift für die deutschsprachige Bibliotheks- und Informationswissenschaft? Das Twitter-Kommunikationsnetzwerk #newlis.

Tweets stecken trotz ihrer 140 Zeichen voller Entitäten, die potentiell für unterschiedliche bibliotheks- und informationswissenschaftliche Fragestellungen interessant sind. So lassen sich Links auf Publikationen, die in Tweets erwähnt werden, für die Messung ihrer unmittelbaren Rezeption oder Hashtags und user-mentions für die Explorationen eines Kommunikationsnetzwerkes heranziehen (siehe ua LIBREAS Tag Twitter). Bis vor kurzem war die Extraktion dieser Eintitäten über die Twitter Search API allerdings nicht explizit in den Metadaten ausgezeichnet, was im Schluss zu ungenauen, und häufig auch unansehnlichen Experimenten mit Linkresolvern und Regulären Ausdrücken führte.

Seit Dezember 2011 exponiert Twitter nun auch die sogenannten Tweet-Entitäten (Tweet Entities), womit sich Medienarten, URLs, Benutzer und Hashtags zielgenau aggregrieren lassen.  Auf GitHub stehen nun vier an Hilfsfunktionen in R zur Verfügung, die auf die Erweiterung der Twitter Search API aufsetzen und über die Suche nach einen Hashtag die netzwerkanalytische Exploration unterstützen.

https://github.com/njahn82/twitter

Kommunikationsnetzwerk #newlis

Als Antwort auf die Ankündigung, dass die von der Zentral- und Landesbibliothek Berlin herausgegebene Zeitschrift BIBLIOTHEKSDIENST ab 2013 bei De Gruyter erscheint, wird unter #newlis die Neugründung einer reinen Open Access Zeitschrift für die deutschsprachige Bibliotheks- und Informationswissenschaft diskutiert und Strategien in einem Etherpad gesammelt.

Mit der Hilfsfunktion hash.search.rt lassen sich Tweets über einen Hashtag aggregieren. Diese ordnet dabei tabellarisch einem Ersteller eines Tweets den von ihm in diesem Tweet erwähnten weiteren Nutzern zu.

Damit lässt sich eine Kantenliste, die die Grundlage  für die obige Visualisierung bildet. Am Beispiel von igraph

#functions under https://github.com/njahn82/twitter/tree/master/Twitter
require(R.utils)
require(igraph)

sourceDirectory("")

# search with hashtag
hash.search.rt <- ("newlis")

#prepare network data
my.graph <- graph.data.frame(my.data[,c(2,3)])

#prepare plot
V(my.graph)$label = V(my.graph)$name
V(my.graph)$label.cex = sqrt(degree(my.graph))*0.4 
V(my.graph)$size = sqrt(degree(my.graph))*2
V(my.graph)$frame.color = NA
V(my.graph)$color = "#E41A1C"

#plot + save
png("testgraph.png")
plot(my.graph,layout=layout.fruchterman.reingold,edge.arrow.size=0.2,vertex.label.color = "gray20")
dev.off()

(nj)

Noch wenige Stunden mit TwapperKeeper!

Posted in LIBREAS.Scheitern, LIBREAS.Visualisierung by libreas on 4. Januar 2012

Ungeachtet der Frage nach dem Wert von Twitter für die Bemessung wissenschaftlicher Kommunikationen (vgl.  Die Buzzermeter. Warum die Tweetmetrics den Menschen stärker in den Blick nehmen sollten) wird am 6. Januar mit TwapperKeeper ein Online-Archiv vom Netz genommen, das der Debatte eine wichtige, non-propritäre Quelle für zukünftige Twitter-Studien hätte bieten können.

Wie kann ich meine Archive sichern?

Wir haben hier bereits früh einen Weg dargelegt, wie sich Archive leicht anhand eines Hash-Tags aus TwapperKeeper heraus sichern lassen, was in viele Verbesserungen und Alternativen mündete:

Dank dieser weitaus offeneren und elaborierteren Arbeiten ist es in den nächsten Stunden noch möglich, persönlich, organisatorisch oder für die Begleitforschung bedeutsame Archive  zu sichern.

Was uns fehlen wird?

Am Beispiel der Twitter-Kommunikation während der Bibliothekartage der Jahre 2010 (#bibtag10) und 2011 (#bibtag11) wird deutlich, welches Potential TwapperKeeper etwa für längerfristige Untersuchungen der (bibliothekarischen) Konferenzkommunikation über Twitter hätte spielen können. Die folgende Skizze soll einen Einstieg in die Fragestellung bieten, wer wen im Rahmen der Bibliothekartage 2010 und 2011 erwähnt bzw. referenziert und wer sich überhaupt an der Kommunikation beteiligt hat.

Kommunikationsnetzwerk während #bibtag10 und #bibtag11 zwischen "Konferenzteilnehmern".

Zum Zoomen als pdf

Alternativen zu TwapperKeeper?!

(more…)

#oebt11 : Echtzeit – Visualisierung und Download von Tweets

Posted in LIBREAS aktuell, LIBREAS.Visualisierung by libreas on 20. Oktober 2011
kann jemand ein Archiv bei twapperkeeper für den Hashtag #oebt11 einrichten? Hab mit zwei Archiven das Gratislimit schon überschritten

beschreibt librarymistress ein klassisches Problem des Social-Media Monitorings anhand von Twitter.  Zwar bestehen Online-Archive für Tweets, allerdings führt die rigide  Twitter-Politik dazu, dass Services wie TwapperKeeper keinen benutzerfreundlichen Download der Daten für die eigene Tabellenkalkulation anbieten dürfen (siehe TwapperKeeper Blog).

Als Alternativen bieten R und der neue Cloud-Computing Service OpenCPU Möglichkeiten, sich seinen eigenen Echtzeit-Export inklusive Visualisierung anzulegen .

Echtzeit-Export als csv, unter

http://beta1.opencpu.org/R/call/store:tmp/8f81a308a4f8898f0aff6ba41bead5e4/csv?tag=%22oebt11%22

Echtzeit-Visualisierung:

http://beta1.opencpu.org/R/call/store:tmp/8f81a308a4f8898f0aff6ba41bead5e4/png?tag=%22oebt11%22

(more…)

Open Access Journals – eine Weltkarte

Posted in LIBREAS.Visualisierung by libreas on 25. August 2011

Verteilung Open Access Journals nach Ländern (Quelle: DOAJ)

Das Directory of Open Access Journals (DOAJ)  verzeichnet qualitätsgeprüfte wissenschaftliche Zeitschriften, die unter Kriterien des Open Access publizieren. Bis dato sind 6936 Zeitschriften dokumentiert und auch LIBREAS.Library Ideas ist  auf Artikelebene erfasst (vgl. hier).

Angeregt von einer Vielzahl an Aktivitäten, Open Access  Entwicklungen über Visualisierungen global zu erfassen, wie Open Access Map oder Repository66.org Repository Maps, setzen wir passend zur Reisezeit unsere Rubrik LIBREAS.Visualisierung fort. Auch in diesem Fall erfolgt die Datenvisualisierung mit R. Neben der obigen Weltkarte können über eine Google API dynamische Karten aus R heraus  gewonnen werden.

Dynamische DOAJ-Karte | Tabellarische Übersicht
(more…)

Kollaboratives Tagging am Beispiel des Open Access Tracking Project

Posted in LIBREAS.Visualisierung by libreas on 28. Juli 2011

Zum 2. Mai 2009 verkündete Peter Suber den  Beginn des Open Access Tracking Project (OATP). Basierend auf den Social Bookmarking Dienst Connotea werden seitdem Entwicklungen und Beiträge im Umfeld des Open Access gemeinschaftlich gesammelt und verschlagwortet. Die Basis des Netzwerkes, welches das gemeinsame Auftreten von Tags der letzten 1.000 Einträge (Zeitraum 11. Mai – 27. Juli 2011)  abbildet, ist die Suche nach dem einzig obligatorischen Tag oa.new. Darüberhinaus wurden die Tags ru.*  zugunsten einer übersichtlicheren Visualisierung entfernt, da sie anscheinend nur eine Funktion für das Verfassen des Open – Access Newsletters haben.

(more…)

Follow

Erhalte jeden neuen Beitrag in deinen Posteingang.

Schließe dich 66 Followern an