LIBREAS.Library Ideas

Querverweise zwischen Zeitschriftenaufsätzen und Forschungsdaten: rebi, ein R-Paket für Europe PMC

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 11. April 2013

Seit wenigen Tagen steht eine erste Version des R-Pakets rebi als Teil von rOpenSci zur Verfügung. rebi ermöglicht die Aggregation und Exploration der in Europe PubMed Central (Europe PMC) indexierten Veröffentlichungen und Forschungsdaten.

Zu diesem Zwecke fragt rebi den kürzlich veröffentlichten Europe PMC RESTful Web Service ab. Die API ergänzt das bereits seit längerem bestehende SOAP-Interface, das beispielsweise im Projekt OpenAIREplus die Basis für einen disziplinären Demonstrator bildete.

Ein Ergebnis des Demonstrators – die Erschließung und Sichtbarmachung von Querverweisen zwischen Publikationen und Forschungsdaten am European Bioinformatics Institute (EBI) – nutzt das Repository PUB – Publikationen an der Universität Bielefeld nach. Bis dato konnten rund 70.000 Querverweise zwischen EBI-Datenbanken wie dem European Nucleotide Archive (ENA) oder UniProt und 600 biowissenschaftlichen Veröffentlichungen automatisch identifiziert und auf Artikelebene eingebunden werden.

rebi war zunächst für die statistische Begleitung der EBI-Anreicherung in institutionelle Forschungsservices gedacht. Jedoch erlaubt das R-Paket weitere Dimensionen der Datenexploration, wie z.B die der Querweise auf Ebene eines Journals.

rebi

Die obige Abbildung zeigt die Verteilung der in Europe PMC indexierten Artikel der Zeitschrift PLOS Genetics nach Publikationsjahr. EBI-Services verweisen zu 2.226 Veröffentlichungen (Variable “Y”) von insgesamt 3.499 indexierten Beiträgen (63,61 %). Die Diskrepanz der Verteilung für das Jahr 2013 lässt sich mit dem Zeitfenster erklären, das die Datenspezialisten am EBI für ihre häufig auch intellektuelle Erschließung der Verweise nach der Journal-Veröffentlichung benötigen. Daher sollten entsprechenden Auswertungen und auch die Aggregation für eigene Bibliotheksanwendungen regelmäßig wiederholt werden.

Mit rebi lässt sich das obige Säulendiagramm mit fünf einfachen Funktionsaufrufen erstellen.

require(rebi)
#get metadata for PLOS Genomics by ISSN
plos.genetics <- searcheuropmc(query="ISSN:1553-7404")

#format year published to date object
plos.genetics$pubYear <-format(plos.genetics$pubYear, format="%Y")

#relevel according to frequency of occurrence Cross-Links to EBI databases
plos.genetics$hasDbCrossReferences <- factor (plos.genetics$hasDbCrossReferences, 
levels = c(rownames(data.frame(rev(sort(table(plos.genetics$hasDbCrossReferences)))))))

#plot
require(ggplot2)

p <- ggplot(plos.genetics, aes(pubYear, ..count.., fill = hasDbCrossReferences)) + 
geom_bar() + theme_bw() +
scale_fill_brewer("EBI\nCross-References",palette="Accent") + 
xlab("Year") + ylab("PLOS Genetics Articles") + 
opts(legend.key=theme_rect(fill="white",colour="white"))

#save plot
ggsave(plot = p, "rebi.png", h = 3.08, w = 7.2)

rebi soll kontinuierlich erweitert werden und enthält derzeit neben der allgemeinen Suchfunktion Aufrufe für die Gewinnung der bibliographischen Metadaten der referenzierten Veröffentlichungen und Zitationen sowie die Berechnung der Anzahl der EBI-Querverweise je Artikel. Weitere rebi-Funktionen können die Gewinnung der Nukleinsäuresequenzen etwa im FASTA-Format ebenso ermöglichen wie die Aggregation der vom EBI automatisch extrahierten Schlagwörter und Taxonomien.

Literatur

McEntyre J.R., Ananiadou S., Andrews S., Black W.J., Boulderstone R., Buttery P., Chaplin D., Chevuru S., Cobley N., Coleman L.-A., et al. UKPMC: a full text article resource for the life sciences. Nucleic Acids Res. 2011;39:D58–D65.PMC3013671

(Najko Jahn)

Institutionelles Publikationsaufkommen in Open Access Zeitschriften — ein Vorschlag mit R

Posted in LIBREAS.Visualisierung by libreas on 2. April 2013

Das DFG Programm Open Access Publizieren fördert Hochschulen, die dauerhafte und verlässliche Strukturen für die Begleichung von Artikelbearbeitungsgebühren, die für die Veröffentlichung in Open-Access-Zeitschriften erhoben werden, an ihrer Einrichtung etablieren. In diesem Sinne erfordert die Antragstellung belastbare Angaben zum entsprechenden Publikationsaufkommen der Hochschule in OA-Zeitschriften und eine transparente Darlegung der Datenerhebung.

Die Universität Bielefeld beteiligt sich mit ihrem Publikationsfonds bereits seit 2011 an der DFG-Ausschreibung. Um die jährlichen Berichtserfordernisse mit möglichst geringem Aufwand über das Institutionelle Repositorium “PUB — Publikationen an der Universität Bielefeld” zu beantworten, basiert das Berichtswesen auf Standards der Digital Library Community (SRU, CQL, MODS) und Routinen der statistischen Programmiersprache R. Somit lassen sich Datenerhebung und -auswertung nicht nur transparent nachvollziehen und reproduzieren, sondern, dank der Standardisierung, auch an anderen Hochschulen wiederverwenden.

Eine Beispiel für eine Anforderung der DFG im Programm “Open Access Publizieren” ist die Darlegung des institutionellen Publikationsaufkommens in Open-Access-Zeitschriften je Verlag.

Abbildung 1: Jährliche Verteilung Open Access Zeitschriftenartikel an der Universität Bielefeld auf Verlage

Abbildung 1: Jährliche Verteilung Open Access Zeitschriftenartikel an der Universität Bielefeld auf Verlage

Abbildung 1 stellt die fünf häufigsten Verlage, auf die Open-Access-Veröffentlichungen an der Universität Bielefeld entfallen, dar. Ein solches Diagramm erlaubt die kontinuierliche Prüfung möglicher Mitgliedschaften oder Vorauszahlungen. Solche Angebote der OA-Verlage versprechen eine Verringerung des Verwaltungsaufwands für Forschende und Bibliothek.

Ebenfalls zeigt die Abbildung, dass sich die Publikationsmöglichkeiten deutlich ausdifferenzieren. Zeitschriftenartikel in Verlagen, die zugunsten der Übersichtlichkeit in die Kategorie “other” zusammengefasst sind, veröffentlichen meistens sehr junge oder kleine Journals. Diese sind häufig (noch) nicht Teil der Master Journal List des Web of Science und lassen sich daher am Besten über eine Erhebung vor Ort eruieren. Am Beispiel der Universität Bielefeld umfasst die Kategorie “other” OA-Journale wie das Journal of Social Science Education (JSSE), das an der UB Bielefeld gehostet wird, oder die von der DFG geförderte Zeitschrift Social Work and Society.

Im folgenden werden die einzelnen Schritte zur Gewinnung der Abbildung 1 mit R dargelegt:

1. Schritt: Publikationsaufkommen 2007 – 2012

Alle in PUB verzeichneten Publikationen für den Zeitraum 2007 — 2012 lassen sich über SRU/CQL abfragen.

Die standardmäßige Ausgabe der Daten erfolgt in MODS. Relevante Felder lassen sich mit R wie folgt parsen.

require(RCurl)
require(XML)

#all

url <- "http://pub.uni-bielefeld.de/sru?version=1.1&operation=searchRetrieve&query=publishingYear%20%3E%202006%20AND%20publishingYear%20%3C%202013&maximumRecords=1000"

id <- c()
year <- c()
genre <- c()

for(i in seq(0, 40000, by = 1000)) {
  
  url.d<-paste(url, "&startRecord=", i , sep = "")
  
  doc <- xmlTreeParse(url.d, useInternal=T)
  id.tmp <- xpathSApply(doc,"//r:recordInfo//r:recordIdentifier", 
  namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  year.tmp <- xpathSApply(doc,"//r:dateIssued", 
  namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  genre.tmp <- xpathSApply(doc,"//r:genre", 
  namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  if(length(id.tmp) == 0)
    break
  else
    id <- c(id, id.tmp)
  year <- c(year,year.tmp)
  genre <- c(genre,genre.tmp)
  
  df.tmp <- data.frame (id, year, genre)
  
}

Hieraus lässt sich sowohl die Gesamtanzahl aller registrierten Publikationsnachweise eruieren wie die Anzahl der Zeitschriftenartikel im Zeitraum 2007 bis 2012.

#gesamt
dim(df.tmp)

#Zeitschriftenartikel
nrow(df.tmp[df.tmp$genre == "article",])

#Anteil in %

nrow(df.tmp[df.tmp$genre == "article",]) / nrow(df.tmp) *100

Insgesamt sind zum 31.3.2013 13.393 Publikationen registriert, 5.960 Veröffentlichungen entfallen auf Zeitschriftenartikel, was einen Anteil am Publikationsaufkommen von rund 44,5 % entspricht.

2. Schritt: Gewinnung ISSN

Der zweite Schritt umfasst die Aggregation der ISSN oder EISSN, die für den eindeutigen Abgleich mit der Journalliste des DOAJ benötigt wird:


#subset journal article

my.journal <- df.tmp[df.tmp$genre == "article",]

#query for issn/eissn

df.enrich <- data.frame()

u <-  "http://pub.uni-bielefeld.de/sru?version=1.1&operation=searchRetrieve&query=id=%22"

for (i in unlist(my.journal$id)) {
  
  url.t <-paste(u,i,"%22", sep="")
  
  doc = xmlTreeParse (url.t, useInternal=T)

issn <- xpathSApply(doc,"//r:relatedItem//r:identifier[@type='issn']",namespaces= (c(r="http://www.loc.gov/mods/v3")) ,xmlValue)
  
  if (length(issn) == 0) {
    
    issn <- "notFound"
    
  } else { issn <- issn }


  df.all.tmp <- data.frame(i, issn)

  df.enrich <- rbind(df.enrich, df.all.tmp)

}


#join with data.frame 
journal.tmp <- merge(df.ernrich, my.journal, by.x="i", by.y="id")

ISSN ist in PUB kein Pflichtfeld, um den Registrierungsaufwand der Forschenden möglichst niedrigschwellig zu gestalten. Fehlende ISSN können jedoch ex post durch den PUB Support nachgepflegt werden.

Eine solche Tabelle zur nachträglichen Datenpflege lässt sich mit R wie folgt generieren:

# exclude records without issn

#subset
my.miss <- journal.tmp[journal.tmp$issn =="notFound",]

nrow(my.miss) # number of records without issn  (174)

#export csv

wirte.csv(my.miss, "missingISSN.csv")

3. Schritt: Abgleich DOAJ

Das Directory of Open Access Journals (DOAJ) bietet eine Liste aller verzeichneten Open-Access-Zeitschriften als csv-Download an:

http://www.doaj.org/doaj?func=csv

Das Laden und der Abgleich über ISSN und EISSN mit R:


#load DOAJ data
doaj <- read.csv("http://www.doaj.org/doaj?func=csv", header = TRUE, sep=",")

#merge by ISSN/EISSN

doaj.issn <- subset(journal.tmp, issn %in% doaj$ISSN)

doaj.essn <- subset(journal.tmp, issn %in% doaj$EISSN)

#combine

doaj.comp <- rbind(doaj.issn, doaj.essn)

#add additional doaj info

test.1 <- merge(doaj.issn, doaj, by.x="issn",by.y="ISSN")

test.2 <- merge(doaj.essn, doaj, by.x="issn",by.y="EISSN")

colnames(test.2) <- colnames(test.1)

my.comp <- rbind(test.1, test.2)

#exclude duplicates

my.comp <- my.comp[!duplicated(my.comp$i),]

Insgesamt lassen sich so 496 Artikel in DOAJ-Zeitschriften an der Universität Bielefeld für die Jahre 2007 – 2012 identifizieren.

4. Schritt Datenexploration

Das data.frame my.comp bildet nun die Datengrundlage für die Visualisierung der Verteilung nach Verlagen, in denen die zuvor identifizierten Zeitschriftenartikel erschienen sind.


require(ggplot2)

#normalize year
my.comp$year <- as.numeric(format(my.comp$year, format = "%Y")) 

#relevel Publisher 

my.comp$Publisher <- factor (my.comp$Publisher, levels = c(rownames(data.frame(rev(sort(table(my.comp$Publisher)))))))

levels(my.comp$Publisher)[6:length(levels(my.comp$Publisher))] <- "other"

#get data.frame for ggplot2 plotting
my.mat <- as.matrix(table(my.comp$Publisher,my.comp$year))

my.publish <- data.frame(my.mat)

#plot

p <- ggplot(my.publish, aes(as.Date(Var2), Freq, group =Var1)) + 
geom_line(aes(colour = Var1, show_guide=FALSE)) + 
geom_point() + 
theme_bw() +
scale_colour_brewer("OA Publisher",palette=2, type="qual") + 
xlab("Year") + ylab("UNIBI Contributions") + 
opts(legend.key=theme_rect(fill="white",colour="white"))

#save plot
ggsave(plot = p, "oapublisher2.png", h = 3.08, w = 7.2)

Zusammenfassung

Die vorgestellte Skizze erhebt Publikationsdaten für die Begleitung des Open-Access-Publizieren in wissenschaftlichen Zeitschriften mittels R. Sie legt das lokale Publikationsaufkommen dar und gleicht es mit dem DOAJ ab. Da die verwendeten Protokolle und Formate auf Digital-Library-Standards beruhen, können Hochschulen und akademische Einrichtungen, deren Repositorien oder Forschungsinformationssysteme diese Standards unterstützen, die vorgestellten Methoden wiederverwenden.

Die R-Routinen, die für das Berichtswesen des Publikationsfonds an der Universität Bielefeld verwendet werden, werden im Laufe des Jahres 2013 als Funktionsaufrufe reformuliert und als Open Source Distribution mit weiteren Auswertungsmöglichkeiten veröffentlicht.

(Najko Jahn)

Najko Jahn ist zugleich an der Universitätsbibliothek Bielefeld tätig

Einen Schritt weiter. Jan Hodel zur “Groebner-Kontroverse” und was die Bibliothekswissenschaft daraus ableiten sollte.

Posted in LIBREAS aktuell, LIBREAS.Debatte by Ben on 11. Februar 2013

von Ben Kaden

Im Weblog histnet erschien heute ein Text von Jan Hodel (Die Groebner-Kontroverse. Oder: Zu Sinn und Unsinn von Wissenschaftsblogs. In: histnet. 11.02.2013) zur mittlerweile offenbar so genannten Groebner-Kontroverse. Muss man ihn lesen? Ich denke, man sollte. Denn Jan Hodel nimmt im Bemühen um eine konstruktive Auseinandersetzung mit den Aussagen Valentin Groebners eben auch die Möglichkeiten zum Umgang mit dem Problem “Muss ich das alles lesen?” in den Blick. Er verweist dabei unter anderem auf die Funktion sortierender und filternder Akteure in der wissenschaftlichen Kommunikation:

“Intermediäre Instanzen, wie sie etwa Redaktionen darstellen, dienen auch der Entlastung der beteiligten Individuen durch Arbeitsteilung. Damit wir nicht alles selber verifizieren und überprüfen, oder auch nur zusammensuchen und im Hinblick auf seine Bedeutsamkeit im wissenschaftlichen Diskurs beurteilen müssen, nutzen wir intermediäre Instanzen, die diese Aufgaben für uns übernehmen. Dies hilft uns, das rare Gut der Aufmerksamkeit gezielter einzusetzen. Ob solche intermediären Instanzen in Zukunft im Stile fachredaktioneller Expertise, dank schwarmintelligenten Zusammenwirkens von adhoc-Kollektiven oder computergestützt mithilfe elaborierter Algorithmen agieren werden [...] scheint mir völlig offen.”

Das ist sowohl für die newlis-Überlegungen wie auch natürlich für uns bei LIBREAS bedeutsam. Die bei ihm skizzierte Typologie der Intermediären verweist auf drei Konzepte:

  • ein traditionell redaktionelles der intellektuellen Vorauswahl durch Experten (wie wir es bei Fachzeitschriften, in Editorial- und Peer Review-Verfahren, Herausgeberschaften u.ä. finden),
  • ein auf Netzwerk- und Hinweiseffekte und Post-Peer-Review-Prinzipien setzendes, dass auch auf Multiplikationseffekte über Social Media setzt,
  • automatische Filterverfahren, die von Algorithmen basierten SDI- und Monitoring-Diensten bis hin zu (z.B. webometrischen) Impact-Kalkulationen reichen.

Der Bezug auf die grundsätzliche Unabsehbarkeit der zukünftigen Etablierung eines dieser Ansätze wäre für die Bibliothekswissenschaft allerdings ein zu einfacher und daher inakzeptabler Ausstieg. Denn das Potential für eine bibliothekswissenschaftlich elaborierte Unterstützung von Wissenschaftskommunikation über die Spekulation hinaus wird in diesem Kontext sofort deutlich.

Besonders, wenn man davon ausgeht, dass die Informationsfilterung und -vermittlung in der Wechselwirkung von Mensch und Maschine differenziert entwickelt werden muss, zeigt sich hinsichtlich der Punkte zwei und drei die Notwendigkeit einer Kombination dreier Methodologien als nahliegend, die in diesem Fach eine Rolle spielen (bzw. spielen sollten): Die Soziale Netzwerkanalyse, die Diskursanalyse und die Bibliometrie. In der Kombination lassen sich auf eine solchen Basis Analysestrukturen mit nahezu unbegrenzter Komplexität entwickeln. Wo schließlich die Grenzen zu ziehen und der Komplexität zu setzen sind, ist Sache der Konkretisierung, Ausentwicklung und Implementierung. An diesem Punkt sind wir in unserem Fach leider noch nicht, denn soweit ich sehe, verhandelt man derzeit überhaupt erst eine in diese Richtung weisende Forschungsagenda.

Wenn also Jan Hodel aus der Perspektive des Historikers schreibt:

“Doch wie genau sich dies vollziehen wird und welche konkrete Bedeutung für unseren jeweiligen Wissenschaftsalltag dies haben wird, darüber kann im Moment nur spekuliert werden.”

dann sehe ich den Ball (nicht nur) in die Dorotheenstraße rollen und die Verpflichtung, für die Bibliotheks- und Informationswissenschaft diesen aufzunehmen und vielleicht nicht unbedingt die Lösung aber in jedem Fall den Nachweis einer wissenschaftlichen, d.h. systematischen Auseinandersetzung mit diesem Problem zu präsentieren. Es handelt sich hier nicht um ein Naturgeschehen sondern um eine – zugegeben nicht wenig komplexe – Ausdifferenzierung der Verfahren, Möglichkeiten und Praxen wissenschaftlicher Kommunikation. Dies ist ein Gestaltungsprozess, in dem diverse Akteure vom Wissenschaftler über die Bibliotheken bis zu Verlagen, Social Media-Unternehmen, Hardware- und Suchmaschinenanbietern mit teilweise auseinanderdriftenden Interessen interagieren. Auf die Gestaltung können wir durchaus Einfluss nehmen und sei es nur, indem wir sie strukturiert ent- und aufschlüsseln und abbilden. Für die Bibliotheks- und Informationswissenschaft, die zweifelsohne eine große Expertise genau in diesen Fragen besitzt, ist die aktive Teilhabe an diesem Prozess über ein Mitspekulieren hinaus keine Option, sondern eine Verpflichtung. Das Forschungsprofil des Faches ist hier nämlich (wenigstens aus meiner Sicht) exakt die kritische Begleitung und Analyse des: “wie genau sich dies vollziehen wird und welche konkrete Bedeutung für [den] Wissenschaftsalltag dies haben wird.”

(Berlin, 11.02.2013)

History Repeating. Die Geschichtswissenschaft debattiert auch 2013 über die Legitimität des Bloggens.

Posted in LIBREAS.Debatte by Ben on 8. Februar 2013

Anmerkungen zu:

- Valentin Groebner: Muss ich das lesen? Ja, das hier schon. In: FAZ, 06.02.2013, S.N5
- Klaus Graf : Vermitteln Blogs das Gefühl rastloser Masturbation? Eine Antwort auf Valentin Groebner In: redaktionsblog.hypotheses.org, 07.02.2013
- Adrian Anton Tantner: Werdet BloggerInnen! Eine Replik auf Valentin Groebner. In: merkur-blog. 07.02.2013

von Ben Kaden

Es gibt offensichtlich (erneut) eine erneute kleine Zuspitzung des Konfliktes um die Frage, inwieweit wissenschaftliche Kommunikation im Digitalen möglich sein darf oder soll. Anlass ist ein Vortrag des Historikers Valentin Groebner, der als Zeitungsfassung am Mittwoch in der Frankfurter Allgemeinen Zeitung unter der Überschrift Muss ich das lesen? Ja, das hier schon – schön historisierend mit dem Gemälde eines lesenden Bauerjungen des russischen Malers Iwan Iwanowitsch Tworoschnikow aus der Zeit des zaristischen Russlands illustriert – abgedruckt wurde.

Erstaunlich an der Debatte, auf die umgehend sowohl Klaus Graf im Redaktionsblog von Hypotheses.org wie Anton Tantner im Weblog der Zeitschrift Merkur und noch einige andere blogaffine Wissenschaftler antworteten, ist besonders, dass sie überhaupt noch bzw. wiederholt so stattfindet. Während Klaus Graf zum Ausstieg noch einmal einen Pinselstrich auf den üblichen, aber halt furchtbar überzogenen und daher eher wenig souverän wirkenden Kampf- und Fronttafelbildern (aber insgesamt vergleichsweise äußerst brav) setzt:

“Die Rückzugsgefechte der Buch-Fetischisten sollten uns nicht vom Bloggen abhalten.”

(Warum auch sollten sie?) findet sich bei Anton Tantner bereits die treffende Antwort:

“Dabei sind Verifizierung und Stabilisierung von Informationen – die Groebner als Aufgabe gedruckter Medien betrachtet – selbstverständlich auch digital möglich und kein Privileg des Papierbuchs; es braucht allerdings geeignete Institutionen dafür, wie zum Beispiel die Online-Repositorien der Universitäten, die die Langzeitarchivierung der von ihnen gespeicherten Dateien – nicht zuletzt wissenschaftliche Texte – zu garantieren versprechen.”

Für die Notwendigkeit von Druckmedien wiederholt man, seit man überhaupt den Gedanken der Abbildung geisteswissenschaftlicher Inhalte in digitale Kommunikationsräume andenkt, die Argumente der Langzeiterhaltung und des Qualitätsfilters – einem Wunschwerkzeug ersehnt schon lange vor dem WWW, um die so genannte Informationsflut (oder Publikationsflut) in den Griff zu bekommen. Valentin Groebners Artikel, der dies mit dem seltsamen Wort “Überproduktionskrise” variierend anteasert, definiert denn auch: “Denn Wissenschaft kann gar nichts anderes sein, als Verdichtung von Information. [...] Man ist als Wissenschaftler selbst ein Filter, ganz persönlich.”

Die Argumente dafür präsentieren sich im Verlauf der Debatte dabei jedoch von nahezu allen Seiten nicht sonderlich verdichtet, sondern vor allem redundant. Wir erinnern uns:

“So verteidigte Uwe Jochum (Konstanz) in seinem polemischen Einführungsreferat die Bibliothek als kulturellen Gedächtnisort, als konkret sicht- und begehbares Gebäude gegen ein orientierungsloses Surfen auf weltweit rauschenden Datenströmen. Aus der antiken Mnemotechnik leitete er die Notwendigkeit einer Lokalisierung der Erinnerung ab: Bei der Lektüre eines Buches im Netz hingegen sei kein Rückschluß auf den Standort des Computers oder gar des Originals möglich. Die Anpassung der Bibliotheken an die Informationsgesellschaft sei schon deshalb problematisch, weil der Informationsbegriff völlig unklar sei. Während in einer herkömmlichen Bibliothek die einzige “Information” der Standort eines Buches sei, gehe in der simultanen Verschaltung von Sender und Empfänger jeder Inhalt verloren – kurz: Sammlung sei gegen Zerstreuung zu verteidigen.”

So las man es ebenfalls in der Frankfurter Allgemeinen Zeitung und zwar am 09.10.1998. (Richard Kämmerlings: Lesesaal, Gedächtnisort, Datenraum Der Standort der Bücher: Auf dem Weg zur hybriden Bibliothek., S.46) Und auch das Thema der Langzeitarchivierung solcher Bestände stand damals mitten in der Auseinandersetzung.

Der Hauptunterschied zu dieser Zeit liegt vor allem darin, dass man 1998 noch nicht diskutierte, inwieweit es für Historiker zulässig ist, solche Debatten sowie andere Wissenschaftskommunikationen in Blogs und damit direkt und ohne redaktionelle Kontrolle abzubilden. Weil man Blogs und das Web als kommunikativen Partizipationsraum noch gar nicht wirklich kannte.

Ein Irrtum Valentin Groebners scheint dagegen darin zu liegen, dass er die “unerfreulichen Seiten der Gelehrtenrepublik [...] nämlich [...] den Kult der narzissistischen Differenz und [...] Debatten, die ins endlose verlängerte werden” grundsätzlich prinzipiell mit digitaler Kommunikation verknüpft. Genauso gut kann man sie nämlich, wenigstens in diesem Fall, beispielsweise gleichfalls mit der FAZ verbinden. Auffällig an diesem Diskurs ist zudem, dass ein paar etablierte Akteure gibt, die seit den frühen Tagen stabil dabei sind und parallel wechselnde neue Akteure, die offensichtlich jedes Argument für sich jeweils neu entdecken und ausführen. (Ich möchte übrigens nicht sagen, dass meine Texte durchgängig außerhalb dieses Prozesses stehen.) Zu vermuten ist jedoch ebenso, dass die Akteure, die tatsächlich intensiv Schlüsse ziehen, mit der Umsetzung ihrer Folgerungen so beschäftigt sind, dass sie gar keine Zeit und Lust mehr finden, sich in (De-)Legitimierungsscharmützeln aufzureiben.

Das Internet wirkt für Kommunikationen naturgemäß vor allem als Proliferationsimpuls: Es entfaltet all das, was ohnehin bereits angelegt ist. Die oft scheußlich selbstgerechten Lesekommentarhagel auf den Zeitungsportalen machen nur sichtbar, wie eben auch gedacht wird. Aus soziologischer Sicht ist das ungemein spannend. Dass das “Unfertige”, aus dem Wissenschaft per se besteht, nun direkt wahrnehmbar, referenzierbar und direkt nachnutzbar wird, verändert zwangsläufig die Wissenschaftspraxis. Das behagt vor allem denen, die dadurch etwas zu gewinnen haben (z.B. Diskurshoheit) und missfällt all denen, die sich darin überfordert bis bedroht sehen (z.B. nicht zuletzt einfach, weil ihnen in ihrer Lebensorganisation die Zeit zur Auseinandersetzung mit den Weblogdiskursen fehlt und sie nicht verstehen, warum sie nun zwangsläufig darauf einsteigen müssen. Auch das ist nachvollziehbar.)

Dass ein nach festen Bezügen strebendes Wissenschaftsbild hier seine Stabilität gefährdet sieht, ist nachvollziehbar. Aber der Zusammenbruch aller überlieferten Wissenschaftswerte ist kein unvermeidliches Szenario, sondern ein vermutlich im Ergebnis eher harmloses Schreckensbild. Es gibt keinen Grund, anzunehmen, dass Digitalität prinzipiell diskursive Verfestigung und Absicherung verhindert. Der oben zitierten Stelle aus der Replik Anton Tantners ist fast nichts hinzuzufügen. Digitale Kommunikationsräume sind Räume, die wir programmieren und gestalten. Wenn wir bestimmte Qualitätskriterien für die Wissenschaftskommunikation erhalten wollen, dann sollte sich das durchaus unter intelligenten, rationalen Akteuren, wie man sie in der Wissenschaft zu vermuten angehalten sein sollte, aushandeln und perspektivisch etablieren lassen. Nicht jeder Geisteswissenschaftler muss dafür Quellcode schreiben lernen. Auch die einfach Verständlichkeit der Schnittstellen zwischen Mensch und Technik ist Teil der Entwicklungsagenda.

Es gibt sogar eine eigene wissenschaftliche Disziplin, die sich mit Fragen auseinandersetzt (bzw. auseinandersetzen sollte), wie diese Ansprüche der Wissenschaft (Verifizierbarkeit, Nachprüfbarkeit, Verdichtung)  im Digitalen umgesetzt werden können: die Bibliothekswissenschaft (bzw. Bibliotheks- und Informationswissenschaft). Wenn man Karsten Schuldts Annahme zustimmt, es gäbe jeweils “ein Rezeptionsverhalten, dass zu bestimmten Situationen und Lesehaltungen passt”, und es gibt keinen Grund die Zustimmung zu verweigern, dann erscheint überhaupt die Idee, selbst- und fremderklärten “Buchfetischisten” und “Masturbationsbloggern” ihre gegenseitige Legitimation absprechen wollen, als völlig unsinniger Hemmschuh, wenn es tatsächlich um die Frage geht, wie ein zeitgemäße Wissenschaftskommunikation aussehen kann – die übrigens genauso nach wie vor Printprodukte und andere netzunabhängige Medien zulässt, wenn diese zu Situation, Lesehaltung und dem Bedürfnis nach Langzeitsicherung passen.

Warum LIS-Zeitschriften. Und warum nicht.

Posted in LIBREAS aktuell by Ben on 5. Februar 2013

Eine Position von Ben Kaden

In Anlehnung an Friedrich Kuhnens Beitrag Der neue Bibliotheksdienst – Hausblatt von De Gruyter? in der Inetbib-Liste erinnert Klaus Graf bei Archivalia ziemlich berechtigt an den großen Sturm im Fachdiskurs des zurückliegenden Jahres:

“2012 wurde aus Anlass der Ankündigung, dass der BD [Bibliotheksdienst] zu de Gruyter geht und sich das OA-Embargo verlängert, zunächst heftig und intensiv über eine Open-Access-Zeitschrift des Bibliothekswesens diskutiert: Arbeitstitel Newlis. [...] Rainer Kuhlen hatte im Herbst 2012 parallel ein Treffen zur Gründung eines hochrangigen englischsprachigen Fachjournals veranstaltet.

Was ist aus alldem geworden?”

Nun offensichtlich nicht viel Greifbares. Dennoch war die Debatte nicht vergebens. Denn sie zeigte, dass es durchaus gelingen kann, einen regen Fachdiskurs anzustoßen, wenn das Thema genügend zündet. Sie zeigt zudem in der längeren Perspektive, dass es derzeit offensichtlich weder im deutschen Bibliothekswesen noch in der deutschen Bibliotheks- und Informationswissenschaft möglich ist, Bedarf, Kompetenz und Ressourcen, die zum Betrieb einer Open-Access-Publikation, wie wir sie uns mutmaßlich alle wünschen, notwendig sind, zu bündeln. Eventuell sollte man sich vorerst mit diesem Gedanken anfreunden. Möglicherweise passt aber auch einfach das Konzept der Zeitschrift nicht mehr so recht in die Zeit.

Johan Schloemann schrieb gestern in der Süddeutschen Zeitung im Nachgang zur Münchner RKB-Tagung:

“Die Art und Weise des Zugriffs kann das Denken verändern […] Inhalte und Assoziationen gehen andere Verbindungen ein, die Gliederung von Online-Ressourcen greift in die Ordnung des Wissens ein, Archiv und Bibliothek wandeln sich in ihrem Wesen.”

In der Tat. Ich lese beispielsweise keine Zeitschriften (direkt), sondern hauptsächlich per RSS-vermittelte Beiträge. Diese beziehe ich auf Themen und Interessen orientiert, wobei die Quelle selbst erst im zweiten Schritt (der kritischen und kontextualisierenden Lektüre) einen Stellenwert erhält. Es gibt nicht DEN einen Titel, der für meine auch fachliche Interessenlage einschlägig ist. Vom Believer über den Bibliotheksdienst bis zu BILD-online kommt alles als Quelle in Frage, wenn mich interessiert wie Bibliotheken, Medienentwicklung und Gesellschaft miteinander in Wechselwirkung stehen.

Meine Rezeption setzt also auf einen sehr heterogenen Quellenverbund aus Blogs, Streams, Zeitungen und auch Zeitschriften. Aus dieser Vielfalt synthetisiert sich dann mittels kritischer Einordnung mein Orientierungswissen in den für mich interessanten Themenfeldern (also in gewisser Weise mein spezifischer Worldstream). Ab und an schreibe ich das dann wieder in Blogs, Zeitschriften oder Sammelbänden nieder. Mit meinem Wissenschaftsverständnis, bei dem es vor allem um Beobachtung, Synopse und Kritik geht und bei dem Statistiken und andere Evidenzmessungen Stützmaterial aber eben nicht Zweck der Erkenntnisfindung sind, harmoniert diese Praxis ganz gut.

Betreibt man in unserem Fach nun selbst eine Zeitschrift, kennt man das massive Problem, dass Produktionsaufwand und Wirkung selten in einem sinnvollen Verhältnis stehen. Es gibt durchaus Gründe, weshalb die Inetbib-Liste und ein paar Weblogs die Fachdiskurse weitaus lebendiger abbilden, als der Bibliotheksdienst, die IWP und sicher ebenfalls die Zeitschrift LIBREAS. Beispielsweise die niedrigen Schwellen und der geringe Aufwand der Teilhabe.

Dies führt dazu, dass bestimmte synoptische Beiträge in Weblogs weitaus häufiger und mit deutlich größerer Wirkung zur Kenntnis genommen werden, als eventuelle Zeitschriftenaufsätze, auf die darin Bezug genommen wird – mit allen Vor- und Nachteilen dieser Praxis. Daher ist der von Walther Umstätter regelmäßig forcierte Bezug zu den Referateblättern, “die einst die deutsche Wissenschaft stark machten” (vgl. hier) außerordentlich zeitgemäß, selbst wenn mittlerweile das erhabene Ziel einer starken deutschen Wissenschaft vielleicht als Anspruch hinter dem grundsätzlichen Bedürfnis, sich generell aktiv und patent in der eigenen fachlichen Umwelt bewegen zu können, zurücktritt.

Das Post Peer Reviewing ist dabei nichts anderes als die kritische und fortschreibende Auseinandersetzung mit den Gedanken anderer zum eigenen Gegenstand. Also eigentlich: Diskurs. Ich denke, dass dies dem Charakter dieses eigenartigen Hybriden aus wissenschaftlichem Anspruch und außerordentlich ausgeprägter praktischer Bewährungspflicht, aus dem sich die Bibliotheks- und Informationswissenschaft und damit auch die Fachblätter konstruieren, weitaus gerechter ist, als eine bemühten Szientifizierung.

Die Bibliotheks- und Informationswissenschaft ist keine harte Wissenschaft und benötigt daher nicht zwingend PLOS-artige Publikationsformate. Und dort, wo Konstruktion und mühselige Etablierungsversuche solch hochgesteckter Angebote die intelligentesten Köpfe der Community in organisatorischen Aufwand binden, sind sie sogar unbedingt verzichtbar. Die Zahl derer, die in unserem Fach tatsächlich unter wissenschaftlichen Bedingungen arbeiten und publizieren ist in Deutschland sehr überschaubar. Für alle anderen wäre eine strenge, Peer-Review-basierte wissenschaftliche Open-Access-Zeitschrift eine Hürde, die sie weder nehmen könnten noch wollten. Was also bestenfalls entstünde, wäre ein kleiner bibliotheks- und informationswissenschaftlicher Binnendiskurs einer kleinen Gemeinschaft, die sich zudem, wie eine aktuelle Untersuchung nahelegt, selbst regelmäßig verfehlt. Dafür ist das Fach schon jetzt mit einer genügenden Menge an Plattformen versorgt.

Zweckmäßiger als eine neue Open-Access-Zeitschrift einzufordern wäre aus meiner Sicht tatsächlich die Fokussierung auf alternative, niedrigschwellige Kommunikationskanäle und die Frage, wie sich ein Qualität sicherndes Post Peer Reviewing darin umsetzen läßt. Sicher lassen sich diverse Erfahrungen mit der Medienform Zeitschrift fruchtbar einbinden. Sicher ist es auch sinnvoll, das Konzept der Zeitschrift dort, wo es passt, weiter zu verfolgen. Ich glaube jedoch, dass es in unserer besonders durchmischten Fachwelt immer weniger funktioniert.

Wenn man das Konzept der Zeitschrift bislang nach wie vor so beharrlich weiterverfolgt, dann vermutlich aus zwei Gründen: a) der Gewöhnung (nach wie vor) und b) weil sich damit, auch beim Open Access-Ansatz, Wissenschaftskommunikation sehr gut in vermarktbare Produkte fassen lässt. Das bedeutet jedoch keinesfalls, dass der Diskurs nicht in anderer Form ebenso gut und vielleicht sogar ein Stück lebhafter und für die Kommunikationsform passender möglich wäre. Gerade dafür ist die newlis-Debatte kein schlechtes Beispiel.

(05.02.2013)

Aus der Redaktion: LIBREAS microbloggt nun auch bei Tumblr. Aber warum?

Posted in LIBREAS aktuell by Ben on 24. Januar 2013

Das Microblogging-Netzwerk Tumblr ist derzeit – bis auf wenige Ausnahmen – in der Wissenschaftskommunikation etwa so populär, wie es Twitter 2008 war und wie es Pinterest 2015 sein wird. Also eher nicht.

Während Wissenschafts- und Fachblogs mittlerweile weitgehend als sinnvolle Bereicherung wissenschaftlichen Austausches akzeptiert und genutzt werden, während das Streupotential von Twitter als Hinweismedium weithin anerkannt ist, stellt sich bei Tumblr bislang tatsächlich die Frage des Mehrwerts für einen fachlichen Austausch. Entsprechend finden sich unter den derzeit schätzungsweise dort gehosteten 80 Millionen Mikroblogs in der Tat äußerst wenige mit Wissenschafts- oder Fachbezug (aber es gibt sie). Möglicherweise hemmt das Fachpublikum, dass man sich dort noch schneller als auf anderen Plattformen der dem WWW prinzipiell innewohnenden Nachbarschaft zu Internet-Phänomenen wie dem Technoviking oder den Lolcats bewusst wird. Benutzungsschwellen scheiden dagegen eher aus – der Anspruch an die Bedienkompetenz liegt höchstens knapp über WhatsApp-Niveau.

Wer Tumblr regelmäßig nutzt, weiß natürlich, dass man sich dort eher auf einem Basar als in der Akademie bewegt. Als weiterer Nachteil mag gelten, dass man auf Tumblr nicht direkt kommentieren kann. Man kann Beiträge allerdings annotiert rebloggen. Und selbstverständlich ist es möglich, einem Beitrag – nicht mit Daumen, sondern per Herzchen – seine Anerkennung namens “like” zuweisen. Diese beiden Formen der denkbar niedrigschwelligen Bestätigung bilden die Essenz des Tumblr-Modells und werden entsprechend gut aufgeschlüsselt angezeigt (vgl. dieses schöne Beispiel).

Wenn sich LIBREAS  nun dorthin erweitert, dann geschieht dies aus einer erkannten Lücke zwischen Blog und Twitter heraus. Wir publizieren hier im Weblog Beiträge, die sich im Regelfall direkt als Aufforderung zum Diskurs verstehen. Wir verlinken über Twitter (und Facebook) Inhalte, die uns im Web begegnen oder die wir ins Web stellen und auf die wir unsere Leser gern hinweisen möchten. Bisweilen stoßen wir jedoch auch auf Inhalte, die wir kommentieren oder etwas erweitert weitergeben möchten, ohne gleich einen größeren Blogbeitrag daraus zu entfalten. Weder Twitter noch Facebook eignen sich dafür besonders gut.

Man könnte nun die Rubrik LIBREAS.Referate in Anspruch nehmen. Aber auch dort haben sich eher längere Besprechungen etabliert. Bisweilen erscheinen in einem Beitrag jedoch nur einzelne Gesichtspunkte oder eben das, was als neue Erkenntnis in den Diskurs zurückfließt, interessant. Dafür nun gibt es das Tumblr-(Micro)Blog. Eine lockere Inspiration mag man im berühmten Harper’s Index suchen und finden. Die Seite LIBREAS.tumblr.com dient also dem Zweck, selektiv und in betont knapper Form Erkenntnisse aus dem aktuellen Publikationsgeschehen in der Bibliotheks- und Informationswissenschaft zu sammeln, zu bündeln und sorgsam auszutaggen. Ob sich dies auf einer täglichen Basis (#daily lis) durchhalten lässt, wird sich zeigen. Jedenfalls sind wir gewillt, in höherer Frequenz aus den Texten, die uns ohnehin regelmäßig über die Schreibtische und Desktops gleiten und zu denen wir sonst vielleicht eine Notiz auf einer Karteikarte machen würden, den einen oder anderen Fakt, das eine oder andere Zitat herauszuziehen und dort abzulegen. Nebenbei prüfen wir zudem, inwieweit sich diese Form des Microbloggings in die Praxis des wissenschaftlichen Kommunizierens mittels digitaler sozialer Netzwerke einbinden lässt.

Zusammengefasst: Wir nutzen Tumblr einerseits für eine Tätigkeit, die uns als maßgeblicher Baustein unserer Profession vermittelt wurde: Wir dokumentieren. Und andererseits für etwas, was uns von Natur aus mitgegeben wurde: Wir probieren aus.

(Ben Kaden, Berlin 24.01.2013)

Rebuilding ORCID profiles with R

Posted in LIBREAS aktuell by libreas on 29. November 2012

With the launch of ORCID, users have submitted ideas to improve the ORCID Registry. Requests, that are are shared on the Support Home Page include:

or refer to the current state of publication listings.

As suggested by Gudmundur Thorisson, there are already services into place which may allow to address these issues. To demonstrate the usefulness of these services and APIs, I rebuilt ORCID publication listing in R. Since I don’t have an ORCID (yet), I used Martin Fenners profile as an example:

First, I queried Sciencecard for the DOI for each publication claimed in a ORCID profile.

library(RJSONIO)

tt <- fromJSON("http://sciencecard.org/api/v3/users/0000-0003-1419-2405?info=summary")

doi <- c()
for (i in 1 : length(tt$user$articles)) {
  doi.tmp <- tt$user$articles[[i]]$article$doi
  date.tmp <- tt$user$articles[[i]]$article$publication_date
  doi <- c(doi,doi.tmp)
}

In the next step, the CSL representation and metadata provided via DOI content negotiation are fetched.

library(httr)
library(XML)
library(RJSONIO)

my.cites <- data.frame()
for (i in doi) {
   csl.tmp <- content(GET(paste("http://dx.doi.org/",i, sep=""),  add_headers(Accept = "text/x-bibliography;style=mla")))
   doi.xml <- GET(paste("http://dx.doi.org/",i, sep=""), 
                    add_headers(Accept = "Accept: application/vnd.crossref.unixref+xml;q=1, application/rdf+xml;q=0.5"))
   doc <- xmlTreeParse(doi.xml, useInternal = T)
   year.tmp <- as.numeric(xpathSApply (doc,"//publication_date//year",xmlValue) [1])
   tmp <- data.frame(csl.tmp,year.tmp,i)
   my.cites <- rbind(my.cites,tmp)
   
}

my.cites <- my.cites[unique(my.cites$i),]

my.cites <- my.cites[rev(order(my.cites$year.tmp)),]

Executed within a brew template, it is easy to reuse this information to set up an alternative web profile for publications claimed in ORCID, that are deduplicated, ordered chronological and displayed in a reference style convention.

After calling

library(brew)
brew("sciencecard.brew","sciencecard.html")

a webprofile built with R can be made available online

The brew template is available on github:gist. A first R package for ORCID is provided by rOpenSci.

Najko Jahn

Predicting the growth of PLoS ONE

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 25. Juli 2012

Najko Jahn

Abstract: This first attempt calculates the annual growth of PLoS ONE and applies a seasonal trend analysis on these numbers. Between 2007-2011, 28,898 contributions were published in PLoS ONE, resulting in an annual growth rate of 62.17% for this period. Holt-Winters filtering for seasonal trend analysis predicts 18,284 published PLoS ONE contributions for 2012, and 31,978 for 2013 (compared to 13,797 in 2011). The findings raise the question about the duration of exponential growth of PLoS One publication volume, the transition of scholarly publication models, and, furthermore, the future of institutional Open Access publication funds.

Introduction

In recent posts [1], Martin Fenner presents approaches to visualise the performance of contributions published in Public Library of Science (PLoS) journals. Two APIs provided by PLoS were taken as the data source for these exploratory visualisations; one searches the PLoS domain for particular contributions, the other obtains Article Level Metrics (ALM) for each PLoS contribution. The latter is feeding into the ongoing work on Altmetrics (see eg Priem et al arXiv:1203.4745).

Collected in the work-in-progress plosOpenR GitHub repository, a joint collaboration of members from PLoS Article Level Metrics project, Bielefeld University Library and OpenAIRE was initiated.Our incentives for this work is to further enhance the existing R package rplos provided by rOpenSci. It shall allow crosswalks based on common funding information between data coming from the PLoS Journal server, including its collected metrics, and data on documents stored in institutional repositories. In a first step, this will be worked out as part of the FP7 funded OpenAIRE project which sets out to build an Open Access Infrastructure for European research.

In this post, I propose how to a) detect the annual growth rate of PLoS ONE contributions  and b) try to forecast the further growth by applying Holt-Winters smoothing which is a time series analysis method to detect seasonal trends originating from economics [2].

Applying time series analysis on PLoS One is particularly interesting for at least two reasons: Firstly, PLoS ONE publishes each contribution right after acceptance. This forms a publishing model that differs mostly from print journals where accepted submissions are commonly published in issues. Secondly, its multi-disciplinary coverage distinguishes PLoS ONE from most other academic journals.

Methods

To act in accordance with the PLoS Search API Terms of Conditions, thereby avoiding API overload, I downloaded the latest dump of  47,430 PLoS contributions from April (available here). After table cleaning in Open Office, the resulting csv file is loaded into the R working space. In the following, I summarized the data by Journal name and publication date.

require(plyr)

my.plos <- read.csv("plosalm.csv",header=T,sep=",")

tt <- ddply(my.plos,.(Publication.Date,Journal), nrow)
# format may differ according to pre-processing routines in OO
date <- strptime(tt$Publication.Date,format="%d.%m.%Y")
year <- date$year + 1900

my.data <- cbind(tt,date, year)

After this step, a summary of publications frequencies by each year and by PLoS journal can be obtained and exported as html table (see results, Table 1).

#table
my.tab <- as.data.frame(tapply(my.data$V1, my.data[,c("Journal","year")],sum))

sum.journal <- rowSums(my.tab, na.rm=T)
my.tab <- cbind(my.tab,sum.journal)

sum.year <- colSums(my.tab, na.rm=T)
my.tab <- rbind(my.tab,sum.year)

#export as html table
require("xtable")
my.tab.x <- xtable(my.tab)
digits(my.tab.x) <- 0
print(my.tab.x, type="html", file="summaryPLoS.html")

With regard to the so gathered annual number of contributions, the Compound Annual Growth rate (CAGR) can be obtained. CAGR is used in economics to measure a year-over-year growth of an investment. In our case, we calculate CAGR for the 5 years period from 2007-2011 to describe the growth of PLoS ONE contributions.

In order to predict the future growth of PLoS ONE contributions, the Holt-Winters was applied on the obtained data as this method is sensitive to seasonal trends (see results, Figure 1). In another blog post it is described how to apply Holt-Winters in R. In a first step, the subset the table for PLoS ONE was built. Afterwards, I calculate the number of monthly contributions. The zoo package provides the tools for achieving this task.

require(zoo)
#plos one
my.plos <- subset(my.data, Journal == "PLoS ONE")

#as zoo object to monthly summary
z <- zoo(my.plos$V1, my.plos$date)

t.z <- aggregate(z, as.yearmon, sum)
#time series object
ts.q <- ts (t.z, start=c(2006,12), frequency = 12)

A time series object is created for the period beginning Dec 2006, where the first PLoS ONE contributions were published, until the end of March 2012. This forms the basis for calculating both the Holt-Winters distribution and the forecast of PLoS ONE growth until end of Dec 2013 with a confidence level of 0.95.

#Holt-Winter Distribution
ts.holt <- HoltWinters(ts.q)

forecast <- predict(ts.holt, n.ahead = 21, prediction.interval = T, level = 0.95)

plot(ts.holt,forecast, frame.plot=F, xlim=c(2007,2014), ylim=c(0,4500),
     main="Holt-Winters filtering PLoS ONE contributions")

Results

The PLoS contributions by journal and year show a moderate growth in most journals but a strong growth in PLoS One (see Table 1).

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012(Mar30)
PLoS Biology 98 456 431 423 321 327 264 304 276 65 2965
PLoS Clinical Trials 40 28 68
PLoS Computational Biology 72 168 251 287 376 414 418 121 2107
PLoS Genetics 77 208 230 352 473 471 565 184 2560
PLoS Medicine 68 434 487 346 250 199 193 206 45 2228
PLoS Neglected Tropical Diseases 42 179 224 350 445 126 1366
PLoS ONE 137 1230 2716 4405 6750 13797 4747 33782
PLoS Pathogens 41 123 198 286 459 534 556 157 2354
98 524 1055 1586 2646 4397 6400 9016 16263 5445 47430
Table 1: PLoS contributions by journal and year

On the basis of these data, a Compound Annual Growth Rate for PLoS ONE can be calculated for the 5 years period from 2007 to 2011. As a result, PLoS ONE’s annual growth rate is calculated as being 62.17 %.

Applying the Holt-Winters method, a plot can be generated, which gives first insights into the distribution (see Figure 1). The black lines highlight the observed contributions per month until the end of March 2012. The red line presents the fitted Holt-Winters values, starting in Dec 2007 until end of 2013. The blue lines highlight the upper and lower confidence intervals. The vertical line borders show observed and predicted values.

The exponential smoothing predicts the monthly observations well. However, note the sharp decline between December 2011 and January 2012. Predicting values for 2012 and 2013, following this approach, PLoS ONE will publish 18,284 contributions in 2012 (confidence interval between 15420 – 21149) and 31,978 (confidence interval between 22679 – 41279) contributions are predicted for 2013.

Discussion

If my attempt is sound, and I really do appreciate any critical comments, then the obtained growth rates will have consequences on the publishing landscape. No where else, such extreme growth rates of the general scientific literature were never reported before [3]. It also raises the question about the share of articles that do not receive any single citation. Known as the scientometric phenomena of “uncitedness”, this may be tackled by future analysis of PLoS ALM data. On a side note, the analysis reveals the seasonal decline between December 2011 and January 2012. This might, prima facie, resemble biases in the submission and selection processes in other journals [4]. This would also require further examination.

In conclusion, if these growths rates can exclusively be reported for PLoS ONE, the implications for the publishing landscape could be strong. Swift, cross-disciplinary publishing platforms could pressure the market leadership of the high impact subject-specific journals. Since PLoS ONE requires author publication fees for most of its contributions, institutional services and likewise funders covering these fees may have to consider whether this growth affects their funding activities to cover author publication fees. At least as part of our local Open Access Publication Funds of Bielefeld University activities we’ve been experiencing the growing importance in the last years, too.

The intial R source code can be found at plosOpenR GitHub repository: https://github.com/articlemetrics/plosOpenR.

I wish to acknowledge helpful comments and suggestions by Wolfram Horstmann.

Notes

[1]Example Visualizations using the PLoS Search and ALM APIs; What users do with PLoS ONE papers

[2] C. C. Holt (1957) Forecasting trends and seasonals by exponentially weighted moving averages, ONR Research Memorandum, Carnegie Institute of Technology 52. P. R. Winters (1960) Forecasting sales by exponentially weighted moving averages, Management Science 6, 324–342. Useful Introduction: P. Goodwin (2010) The Holt-Winters Approach to Exponential Smoothing: 50 Years Old and Going Strong. Forecast Spring 2010.

[3] P. Weingart (2003) Wissenschaftssoziologie, Bielefeld: transcript, pp. 35 -39.

[4] L. Bormann & H.D. Daniel (2010) Seasonal bias in editorial decisions? A study using data from chemistry, Learned Publishing, 24, 325-328.

LIBREAS als Schweigbügelhalter? Eine Position zur newLIS-Debatte.

Posted in LIBREAS aktuell, LIBREAS.Debatte, LIBREAS.Verein by Ben on 4. Juli 2012

von Ben Kaden

Wenn es um Open Access und Fachzeitschriften geht herrscht derzeit ein bisschen Spannung in der Branche. Die Diskussion um newLIS, also einer neuen Open-Access-Zeitschrift der Bibliothekswissenschaft bzw. des Bibliothekswesens bildet dafür den Bogen, der sich auch Richtung LIBREAS spannt, LIBREAS selbst aber, so mutmaßt mancher, nicht berührt. Allerdings bezieht man uns auch selten von Seiten der um newLIS Aktiven direkt ein und obschon im Berliner Bibliothekswissenschaftlichen Kolloquium vom 03.07. die Gelegenheit sehr günstig war, blieb es dabei, dass wir mehr aus der Ferne beobachtet wurden. Warum dem so ist, sollte sicher auch einmal diskutiert werden, denn eigentlich verstehen wir uns schon dergestalt als inklusiv, dass wir auch für diese Debatten offen sind.

Nun findet sich heute hier im Weblog eine Aussage Walther Umstätters, die ein wenig das Problem anspricht:

Die Frage ist ja nicht, welchen Stellenwert Libreas momentan hat, sondern welche Ausbaufaehigkeit sie mitbringt. Dazu gibt es gerade eine Diskussion, die man substantiell anreicher koennte, anstatt sie nur unbegruendet abzubuegeln.

Darauf gehe ich selbstverständlich sehr gern ein und auch wenn die Meinungen innerhalb der Redaktion in dieser Sache ausnahmsweise nicht weit auseinander gehen, möchte ich betonen, dass ich die nachstehende Erörterung des Vorwurfs eine persönliche ist.  (more…)

BBK Vortrag : LIBREAS. Library Ideas wird 21! Über Open-Access und die Bibliotheks- und Informationswissenschaft

Posted in LIBREAS aktuell, LIBREAS Veranstaltungen by libreas on 4. Juli 2012

Präsentation des Vortrages am 3.7.12 im
Berliner Bibliothekswissenschaftliches Kolloquium (Abstract).

Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.

Schließe dich 74 Followern an