LIBREAS.Library Ideas

Warum Forschungsdaten nicht publiziert werden.

Posted in LIBREAS.Dokumente, LIBREAS.Projektberichte by Ben on 13. März 2018

Eine Zusammenstellung und Notiz von Ben Kaden (@bkaden)

Eine große und vermutlich noch zu wenig systematisierte Frage aller Diskussionen um eine Offene Wissenschaft lautet zumindest für die in diesem Bereich aktiven Infrastrukturen: Was spricht eigentlich dagegen? Die Erfahrung aus dem Open-Access-Bereich und mehr noch aus dem der Open Science bzw. Open Scholarship zeigt, dass es nicht selten eine erhebliche Lücke zwischen Wünschen, Zielen und Vorstellungen der Forschungsinfrastruktur und den besonders engagierten fachwissenschaftlichen Vertreter*innen in diesem Bereich und einer Gruppe gibt, die hier verkürzt als “Mainstream” der Wissenschaft bezeichnet werden kann.

Eine wichtige, wenngleich auch nicht ganz überraschende Einsicht aus den jahrelangen Auseinandersetzung mit der Offenen Wissenschaft muss lauten, dass die meisten Forschenden vor allem forschen möchten und zwar in der ihnen vertrauten Logik der Publikations- und wissenschaftlichen Publikationskulturen. Defizite auch der Publikationssysteme werden durchaus erkannt, aber nur dann tiefer adressiert, wenn sie zu spürbaren Behinderungen ihrer Forschung führen. In den meisten Fällen wollen Forschende jedoch nicht als Innovator*innen für wissenschaftskommunikative und -infrastrukturelle Lösungen in einer Weise aktiv werden, die zu einer Umwidmung der Aufmerksamkeit vom Forschungsgegenstand auf diese Metastrukturen der wissenschaftlichen Kommunikation führt. Wo also der Leidensdruck im Umgang mit bestehenden Systemen und Praxen aus Sicht der Forschenden nicht übermäßig hoch ist und tradierte Formen nach wie vor die besten Karrierewege öffnen, werden auch hochengagierte und raffiniert geschliffene Keynote-Apelle wenig verändern. Für wissenschaftliche Bibliotheken und andere Akteure der Wissenschaftsinfrastrukturen ist es folglich unerlässlich, zu wissen, welche Ansprüche, Herausforderungen und Ziele in den einzelnen Communities existieren. Die Gründe, warum Forschungsdaten und -materialien disziplinär zwar unterschiedlich intensiv aber nach wie vor eher selten unter den Idealvorstellungen der Offenen Wissenschaft zugänglich gemacht werden, zählen dazu.

Auf dem gestern (12.März 2018) bei der Wikimedia durchgeführten Open-Science-Bar-Camp des Leibniz Forschungsverbunds Science 2.0 gab es genau dazu eine Session „Valid reasons for opting out of sharing openly“, zur der einige Stichpunkte freundlicherweise auch für alle die sichtbar, die nicht teilnehmen konnten, in einem Etherpad hinterlegt wurde: https://etherpad.wikimedia.org/p/oscibar2018_session13

Ich habe mir erlaubt, diese ein wenig zu clustern und auszuformulieren. Im Anschluss an diese Liste ergänze ich noch einige Stichpunkte aus dem eDissPlus-Projekt, das sich mit den Möglichkeiten des dissertationsbegleitenden Zugänglichmachens von Forschungsdaten befasste.

Aufwand

  • Forschende wollen ihre Zeit lieber in die Forschung selbst als in die Organisation eines Austauschprozesses für Forschungsdaten investieren.
  • In der Projektplanung sind keine zeitlichen und personellen Ressourcen für die Aufbereitung von Forschungsmaterialien und Forschungsdaten für ein Teilen bzw. eine Veröffentlichung vorgesehen.
  • Die Veröffentlichung bzw. Zugänglichmachung von Forschungsdaten und Forschungsmaterialien wurden nicht bei der Projektplanung bzw. beim Erstellen des Forschungsdatenmanagementplans berücksichtigt und ist nachträglich zu aufwändig umzusetzen.

Datenschutzrecht

  • Die Veröffentlichung bzw. Zugänglichmachung von Forschungsdaten und Forschungsmaterialien ist aus datenschutzrechtlichen Gründen ausgeschlossen.
  • Für eine Zugänglichmachung bzw. Publikation von personenbezogenen Daten liegt keine informierte Einwilligung vor.

Institutionelle / infrastrukturelle Ausstattung

  • Die eigene Einrichtung bietet keine ausreichende Unterstützung sowohl infrastrukturell als auch beratend für die Verfügbarmachung bzw. Publikation von Forschungsdaten und Forschungsmaterialien an.

Institutionelle Vorgaben

  • Prüfungsordnungen untersagen Promovierenden eine Publikation von Teilen der Promotion vor Abschluss des Promotionsverfahrens.
  • Es gibt keine formalen Auswahlkriterien, welche Forschungsdaten bzw. Forschungsmaterialien wie zugänglich gemacht werden sollten.

Möglichkeiten und Kompetenzen des Teilens / Publizierens

  • Wissenschaftler*innen ist nicht bekannt, wo sie ihre Daten für eine Weitergabe hinterlegen können.
  • Wissenschaftler*innen sind nicht zureichend geschult, um Forschungsmaterialien bzw. Forschungsdaten wissenschaftlichen Publikationsstandards entsprechend zugänglich zu machen bzw. zu publizieren.
  • Forschungsdatenpublikationen sollen ein Peer-Review-Verfahren durchlaufen, das jedoch möglicherweise noch nicht existiert. Die nicht peer-reviewte Publikation von Forschungsdaten wird abgelehnt.

Persönliche Einstellung / Datenkontrolle / Wissenschaftsethik

  • Wissenschaftler*innen  sind am Thema Open Science / Offene Wissenschaft nicht interessiert.
  • Wissenschaftler*innen möchten gern wissen, wer ihre Forschungsmaterialien und Forschungsdaten nachnutzt, weshalb sie diese nur auf persönliche Anfrage weitergeben würden bzw. sich vorbehalten, eine Weitergabe abzulehnen.
  • Kooperationspartner in einem Forschungsdaten sprechen sich gegen eine Verfügbarmachung bzw. Publikation der im Projekt erzeugten Forschungsdaten und Forschungsmaterialien aus.
  • Die Zugänglichmachung von Forschungsdaten bzw. Forschungsmaterialien wird bewusst verweigert, weil entsprechende Anregungen und Vorgaben als Eingriff in die persönliche Wissenschaftsfreiheit interpretiert werden.
  • Die eigenen Forschungsdaten bzw. Forschungsmaterialien werden als für eine Weitergabe zu wenig relevant eingeschätzt.
  • Wissenschaftler*innen möchten verhindern, dass ihre Forschungsdaten bzw. Forschungsmaterialien für von ihnen nicht gewünschte Zwecke nachgenutzt werden.
  • Es bestehen Zweifel daran, dass Dritte die Forschungsdaten bzw. Forschungsmaterialien wissenschaftlichen Standards entsprechend nutzen können.
  • Es besteht die Sorge, dass durch Zugänglichmachung von Forschungsdaten bzw. Forschungsmaterialien Schwächen der Datenerhebung und -analyse sichtbar werden.
  • Die konkreten Forschungsdaten bzw. Forschungsmaterialien sind in einer Weise manipuliert, die verborgen bleiben soll.

Verlags-, Urheber- und Nutzungsrecht

  • Wissenschaftler*innen haben die Nutzungs- und Verwertungsrechte im Zuge einer Copyright-Vereinbarung an einen Wissenschaftsverlag übertragen und besitzen daher keine Verfügungsmöglichkeiten zum Teilen bzw. Veröffentlichen von Forschungsdaten.
  • Promovierende, deren Forschungsprojekt in Kooperation mit Dritten stattfindet, haben nur begrenzt Verfügungsrechte über ihre Forschungsdaten bzw. Forschungsmaterialien. Dies betrifft insbesondere Kooperationen mit kommerziellen Partnern.
  • Es ist nicht bekannt, wer die rechtliche Eigentümerschaft zu den jeweiligen Forschungsdaten bzw. Forschungsmaterialien besitzt.

Weitere Rechtsgebiete / Wissenschaftsethik

  • Das Forschungsthema ist zu sensibel als dass die Forschungsmaterialien und Forschungsdaten frei und international verfügbar gemacht werden können.
  • Es ist unklar, wer langfristig die Verantwortung für die jeweiligen Forschungsdaten bzw. Forschungsmaterialien übernimmt.

Wissenschaftssoziologie

  • Forschungsdaten und -materialien gelten als wissenschaftliches Kapital und werden (noch) zurückgehalten, weil sie in einem späteren Projekt weiter ausgewertet werden sollen.
  • Forschungsdaten und  Forschungsmaterialien sollen als exklusives Asset für einen Antrag auf Projektförderung angeführt werden. Sind sie frei verfügbar, sinkt, so die Wahrnehmung, die Chance auf Förderung.
  • Forschungsdaten und Forschungsmaterialien sollen zunächst exklusiv weiter beforscht werden, weshalb eine Publikation bzw. Zugänglichmachung bestenfalls nach einem Embargo in Frage kommt.
  • Die Publikation bzw. das Teilen von Forschungsmaterialien und Forschungsdaten wird nicht ausreichend als wissenschaftliche Leistung gewürdigt.

Wissenschaftsfreiheit

  • Das Prinzip der Open Science / Offenen Wissenschaft sollte nicht als Druck wirken – im Sinne der Wissenschaftsfreiheit sollten Wissenschaftler*innen selbst entscheiden ob bzw. wie bzw. wann sie Materialien und Forschungsdaten zugänglich machen.

Aus den Erfahrungen des eDissPlus-Projektes, das Einstellungsmuster von Promovierenden zum Publizieren von Forschungsdaten untersuchte,lassen sich, wie angekündigt, noch einige weitere Hürden benennen bzw. genannte Aspekte weiter differenzieren. Dies sind u.a.:

Aufwand

  • Der Aufwand für eine dissertationsbegleitende Forschungsdatenpublikation wird nur sehr selten in der Dissertationsplanung und – sofern überhaupt vorhanden – in Forschungsdatenmanagementplänen berücksichtigt.

Institutionelle und disziplinäre Vorgaben / Rahmenbedingungen

  • In vielen Bereichen fehlen für Forschungsdatenmanagement und das Publizieren von Forschungsdaten Standards, die eine Orientierung geben können.
  • Forschungsdatenpolicies werden im Einzelfall häufig als untauglich empfunden, u.a. da sie zum Beispiel datenschutzrechtliche sowie weitere rechtliche Einschränkungen einer möglichen Forschungsdatenpublikation in keiner Weise würdigen.
  • In vielen Disziplinen gibt es keinen nachhaltigen und systematischen Austausch darüber, welchen Stellenwert und welche Form Forschungsdatenpublikationen für wissenschaftliche Kommunikation haben sollten.
  • Prüfungsordnungen treffen in der Regel keine Aussagen zu Forschungsdatenpublikationen und bieten daher auch keine Orientierung.
  • Für den Titelerwerb sind Forschungsdatenpublikationen in den meisten Fällen nicht erforderlich.

Kompetenzen und Kompetenzvermittlung

  • Bereits für das generelle Forschungsdatenmanagement werden häufig Vermittlungsdefizite benannt: Das Thema findet in Lehre und Methodenausbildung kaum statt. Die Frage der Forschungsdatenpublikation wird in der Regel überhaupt nicht angesprochen.
  • Da in vielen Disziplinen Forschungsdatenpublikationen unüblich sind, kommen Promovierende auch bei der Literatursuche nicht mit dieser Gattung in Kontakt. Die Idee und Möglichkeit einer Forschungsdatenpublikationen ist ihnen daher häufig nicht bekannt.

Persönliche Einstellung / Datenkontrolle / Wissenschaftsethik

  • Forschungsdaten werden im Rahmen von Promotionsprojekten häufig mehr als Mittel zum Zweck als als eigene publikationswürdige Größe angesehen.
  • Promovierende sehen sich angesichts der geringen Etablierung von Forschungsdatenpublikationen in vielen Bereichen überfordert und nicht in der Lage, zusätzlich zu ihrer Promotion entsprechende Pionierarbeit für die Publikationskulturen ihrer Fächer zu leisten.

Rechtliche Aspekte

  • Promovierende können oft die u.a. urheber- bzw. erheber-rechtlichen Folgen einer Forschungsdatenpublikation nur unzureichend abschätzen. So scheint die Bedeutung der Creative-Commons-Lizenzen für konkrete Szenarien oft wenig eindeutig.
  • Das Datenschutzrecht steht einer Publikation von dissertationsbegleitenden Forschungsdaten mit Personenbezug aktuell in fast allen Fällen im Weg, u.a. da selten Forschungsdatenpublikationen von vornherein eingeplant und in den jeweiligen informierten Einwilligungen nicht vorkommen. Das nachträgliche Einholen eine Publikationserlaubnis ist oft nicht möglich oder wird als deutlich zu aufwändig eingeschätzt.

Wissenschaftssoziologie / Forschungsdatenkontrolle

  • Forschungsdatenpublikationen versprechen in den meisten Fällen keinen zusätzlichen Reputationsgewinn. Teilweise wird von den Gutachter*innen eine dissertationsbegleitende Forschungsdatenpublikation sogar als potentiell schädlich eingeschätzt.
  • Forschungsdaten gelten bei vielen Promovierenden als wissenschaftliches Kapital. Besteht die Bereitschaft zur Weitergabe, wird eine selektive Zugänglichmachung auf Anfrage deutlich gegenüber einer allgemeinen Zugänglichmachung als Publikation bevorzugt.

Beide Auflistungen sind sicher keinesfalls erschöpfend. Zu vielen Aspekten wären auch vertiefende Einzeluntersuchungen sinnvoll und notwendig. Deutlich wird jedoch bereits an dieser losen Reihung, dass individuelle Einstellungsmuster zwar einen wichtigen Aspekt darstellen und entsprechend Lobbyarbeit für Open Access und weitere Elemente der Offenen Wissenschaft sicherlich sinnvoll ist. Nachhaltig wirksam werden sie aber nur sein können, wenn auch entsprechende Rahmenbedingungen existieren und zwar sowohl infrastrukturell als auch fachkulturell.

Ein offensichtliches Haupthindernis liegt sicher im aktuell in vielen Fällen deutlichen Missverhältnis von Aufwand und Nutzen. Eine wissenschaftlichen Standards entsprechende Forschungsdatenpublikation erfordert gerade auch angesichts des Mangels an Best-Practice-Beispielen und auch im Einzelfall passenden Leitlinien eine vergleichsweise hohe zusätzliche Arbeitsbelastung, der jedoch kein erwartbarer Reputationsgewinn entgegen steht. Je niedrigschwelliger hier Infrastrukturen Beratung und andere Dienste anbieten können, desto besser. Die Universitätsbibliothek wurde von vielen der befragten Promovierenden im eDissPlus-Projekt als natürliche Ansprechpartnerin für alle Fragen zum Thema Forschungsdaten angesehen und zwar auch für Aspekte, die man gemeinhin eher den Instituten und der dortigen Ausbildung zugeschrieben hätte. Man wünscht sich von der Bibliothek idealerweise ein umfassendes Spektrum an Dienstleistungen von der Beratung über Cloud-Dienste bis zur Langzeitarchivierung für komplexe Datenstrukturen. Was davon wie tatsächlich angeboten werden kann, ist allerdings eine andere Diskussion. In der Erwartungshaltung der Promovierenden, die mit hoher Kompetenz an Forschungsdaten gehen, ist Github ein Benchmark. Bei den anderen eher Dropbox. Im Ergebnis weist der Wunsch in eine Richtung, die beide Dienste mit umfassenden Beratungsangeboten verbindet und überschätzt nebenbei deutlich die Entwicklungskapazitäten, die die öffentliche Hand an dieser Stelle bereitzustellen vermag.

Die zweite große Herausforderung liegt in einer unklaren Rechtslage in Bezug auf Forschungsdaten. Hierzu gab es im Januar 2018 einen Workshop an der Viadrina in Frankfurt/Oder, der erwartungsgemäß wenige Antworten dafür aber noch tiefere Einblicke in die Komplexität der Gemengelage bot.

Und schließlich fehlen für viele Disziplinen tatsächlich praktikable Infrastrukturangebote, auch übrigens von Verlagen oder anderen kommerzieller aufgestellten Anbietern, für eine zeitgemäße und dauerhafte Zugänglichmachung von Forschungsdatenpublikationen. Das Druckparadigma, dass sich im PDF-Format vergleichsweise angenehm spiegeln ließ, funktioniert für digitale Forschungsdaten endgültig nicht mehr. Will man sie zum festen Teil der wissenschaftlichen Kommunikation werden lassen, benötigt man oftmals überhaupt erst einmal adäquate mediale Präsentationsformen – eine Debatte übrigens, die in zahlreichen Bereichen bestenfalls nebenbei geführt wird. Implizit lässt sich hier auch aus den eDissPlus-Befragungen ein weiteres sehr großes Hindernis für Forschungsdatenpublikationen ermitteln: Die Daten sind u.U. mit den bestehenden Möglichkeiten gar nicht sinnvoll als Publikation darstellbar.

Zu all diesen Problemen existiert selbstverständlich engagierte Arbeit hinsichtlich möglicher Lösungen, auch wenn die Digitalisierung der Wissenschaft gerade im Infrastrukturbereich noch ganz anders auch von den Träger- und Förderinstitutionen adressiert werden könnte, als dies bislang geschieht. So ermöglicht beispielsweise der edoc-Server seit diesem Jahr Forschungsdatenpublikationen. Auch Zenodo kann als gelungenes Beispiel für einen zeitgemäßen Publikationsserver für alle möglichen Materialien gelten. Dass Forschungsdaten auf den Publikationsservern mit Metadaten erschlossen, mit DOIs versehen werden und wenigstens teilweise sogar in Bibliothekskatalogen bibliografiert erscheinen, mag ebenfalls ein früher Schritt in Richtung Anerkennung als ordentliche wissenschaftliche Publikation sein. Aber damit endet in den meisten Fällen die Reichweite dessen, was die Bibliotheken und Infrastrukturen zu leisten in der Lage sind.

Die Selbstorganisation der Wissenschaft macht es erforderlich, dass sich die Fachkulturen darüber verständigen, welchen Stellenwert in welcher Form die Publikation von Forschungsdaten und anderen Forschungsmaterialien für sie einnehmen kann und soll. Sie müssen selbst ausdiskutieren, prüfen und entscheiden, ob sie zum Beispiel ein Peer Review wollen, ob komplexe Forschungsdatenpublikationen auch berufungsrelevant sein können, welche Formate sie bevorzugen und welche Metadaten sie brauchen. Die Infrastrukturseite kann aufzeigen, was möglich ist, kann Erfahrungen, Erkenntnisse und Überblickswissen vermitteln. Dafür brauchen wir Veranstaltungen wie das Open-Science-Bar-Camp und Wissenschaftsforschung, wie sie im eDissPlus-Projekt stattfinden konnte. Die Absicherung eines Wissenstands auf der jeweiligen Höhe der Zeit zu den Praxen und Wünschen der Fachkulturen einerseits und den technischen Möglichkeiten andererseits ist bereits für sich eine enorme Herausforderung und zugleich Minimalbedingung jeder zielorientierten Infrastrukturentwicklung. Bereits dafür benötigt man, wenn man so will, Brückenakteure, die sowohl Fach- und Publikationskulturen als auch Ziele, Möglichkeiten, Grenzen von Wissenschaftsinfrastruktur und -organisation kennen. Man braucht solche Akteure aber noch mehr, wenn es darum geht, den eigentlichen Schritt einer digitalen Wissenschaft zu gehen, nämlich die Infrastruktur mit der wissenschaftlichen Kommunikation und an bestimmten Stellen direkt mit der Forschung zu verzahnen. Wir können auf Barcamps und in Workshops umfassend darüber diskutieren, warum Forschende ihre Daten nicht publizieren. Greifbare und praktikable Lösungen werden sich jedoch erst dann daraus ableiten lassen, wenn diese Diskussionen auch mit den Wissenschaftler*innen geführt werden. Dazu ist es notwendig beide Seiten nicht nur zu kennen, sondern in einem stetigen Dialog zu halten. Ich habe eingangs bemerkt, dass Forschende vor allem forschen und sich möglichst wenig mit Infrastrukturfragen befassen wollen. Dies ändert sich bei der digitalen Wissenschaft natürlich dann, wenn Infrastruktur und Forschung zusammenfallen. Ein gutes Beispiel unter anderem auch für die Schwierigkeiten dieser Entwicklung sind die Digital Humanities.

Wir, als Vertreter zum Beispiel der Universitätsbibliotheken bemühen uns unter anderem in Projekten wie eDissPlus intensiv darum, zu verstehen, was die Forschenden als Zielgruppen umtreibt. Konsequent gedacht könnte sich das Konzept der Zielgruppe allerdings an nicht wenigen Stellen zunehmend relativieren und das Gewicht deutlich in Richtung einer Partnerschaft verschieben. Ein unmittelbares Desiderat ist aktuell ein Forum oder eine Form, das bzw. die es uns ermöglicht, Erkenntnisse wie die oben zusammengetragenen in einen übergreifenden und gestaltungsorientierten Dialog mit allen Stakeholdern einzubringen. Ein zweites ist häufig eine stabile und ein idealerweise unkomplizierte Struktur, die es nach Ende von Projekten von eDissPlus erlaubt, über die, wenn man so will, Anamnese hinaus, zu konkretisieren, wie, mit welchen Mitteln und an welchen Stellen die in diesem Fall identifizierten Hürden abgebaut werden können. Diese Situation steht dabei exemplarisch für etwas sehr Generelles: Die Ansprüche einer Offenen Digitalen Wissenschaft werden sich nur als Projekt des Gesamtsystems Wissenschaft realisieren lassen.

(Berlin, 13.03.2018)

Querverweise zwischen Zeitschriftenaufsätzen und Forschungsdaten: rebi, ein R-Paket für Europe PMC

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 11. April 2013

Seit wenigen Tagen steht eine erste Version des R-Pakets rebi als Teil von rOpenSci zur Verfügung. rebi ermöglicht die Aggregation und Exploration der in Europe PubMed Central (Europe PMC) indexierten Veröffentlichungen und Forschungsdaten.

Zu diesem Zwecke fragt rebi den kürzlich veröffentlichten Europe PMC RESTful Web Service ab. Die API ergänzt das bereits seit längerem bestehende SOAP-Interface, das beispielsweise im Projekt OpenAIREplus die Basis für einen disziplinären Demonstrator bildete.

Ein Ergebnis des Demonstrators – die Erschließung und Sichtbarmachung von Querverweisen zwischen Publikationen und Forschungsdaten am European Bioinformatics Institute (EBI) – nutzt das Repository PUB – Publikationen an der Universität Bielefeld nach. Bis dato konnten rund 70.000 Querverweise zwischen EBI-Datenbanken wie dem European Nucleotide Archive (ENA) oder UniProt und 600 biowissenschaftlichen Veröffentlichungen automatisch identifiziert und auf Artikelebene eingebunden werden.

rebi war zunächst für die statistische Begleitung der EBI-Anreicherung in institutionelle Forschungsservices gedacht. Jedoch erlaubt das R-Paket weitere Dimensionen der Datenexploration, wie z.B die der Querweise auf Ebene eines Journals.

rebi

Die obige Abbildung zeigt die Verteilung der in Europe PMC indexierten Artikel der Zeitschrift PLOS Genetics nach Publikationsjahr. EBI-Services verweisen zu 2.226 Veröffentlichungen (Variable „Y“) von insgesamt 3.499 indexierten Beiträgen (63,61 %). Die Diskrepanz der Verteilung für das Jahr 2013 lässt sich mit dem Zeitfenster erklären, das die Datenspezialisten am EBI für ihre häufig auch intellektuelle Erschließung der Verweise nach der Journal-Veröffentlichung benötigen. Daher sollten entsprechenden Auswertungen und auch die Aggregation für eigene Bibliotheksanwendungen regelmäßig wiederholt werden.

Mit rebi lässt sich das obige Säulendiagramm mit fünf einfachen Funktionsaufrufen erstellen.

require(rebi)
#get metadata for PLOS Genomics by ISSN
plos.genetics <- searcheuropmc(query="ISSN:1553-7404")

#format year published to date object
plos.genetics$pubYear <-format(plos.genetics$pubYear, format="%Y")

#relevel according to frequency of occurrence Cross-Links to EBI databases
plos.genetics$hasDbCrossReferences <- factor (plos.genetics$hasDbCrossReferences, 
levels = c(rownames(data.frame(rev(sort(table(plos.genetics$hasDbCrossReferences)))))))

#plot
require(ggplot2)

p <- ggplot(plos.genetics, aes(pubYear, ..count.., fill = hasDbCrossReferences)) + 
geom_bar() + theme_bw() +
scale_fill_brewer("EBI\nCross-References",palette="Accent") + 
xlab("Year") + ylab("PLOS Genetics Articles") + 
opts(legend.key=theme_rect(fill="white",colour="white"))

#save plot
ggsave(plot = p, "rebi.png", h = 3.08, w = 7.2)

rebi soll kontinuierlich erweitert werden und enthält derzeit neben der allgemeinen Suchfunktion Aufrufe für die Gewinnung der bibliographischen Metadaten der referenzierten Veröffentlichungen und Zitationen sowie die Berechnung der Anzahl der EBI-Querverweise je Artikel. Weitere rebi-Funktionen können die Gewinnung der Nukleinsäuresequenzen etwa im FASTA-Format ebenso ermöglichen wie die Aggregation der vom EBI automatisch extrahierten Schlagwörter und Taxonomien.

Literatur

McEntyre J.R., Ananiadou S., Andrews S., Black W.J., Boulderstone R., Buttery P., Chaplin D., Chevuru S., Cobley N., Coleman L.-A., et al. UKPMC: a full text article resource for the life sciences. Nucleic Acids Res. 2011;39:D58–D65.PMC3013671

(Najko Jahn)

Predicting the growth of PLoS ONE

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 25. Juli 2012

Najko Jahn

Abstract: This first attempt calculates the annual growth of PLoS ONE and applies a seasonal trend analysis on these numbers. Between 2007-2011, 28,898 contributions were published in PLoS ONE, resulting in an annual growth rate of 62.17% for this period. Holt-Winters filtering for seasonal trend analysis predicts 18,284 published PLoS ONE contributions for 2012, and 31,978 for 2013 (compared to 13,797 in 2011). The findings raise the question about the duration of exponential growth of PLoS One publication volume, the transition of scholarly publication models, and, furthermore, the future of institutional Open Access publication funds.

Introduction

In recent posts [1], Martin Fenner presents approaches to visualise the performance of contributions published in Public Library of Science (PLoS) journals. Two APIs provided by PLoS were taken as the data source for these exploratory visualisations; one searches the PLoS domain for particular contributions, the other obtains Article Level Metrics (ALM) for each PLoS contribution. The latter is feeding into the ongoing work on Altmetrics (see eg Priem et al arXiv:1203.4745).

Collected in the work-in-progress plosOpenR GitHub repository, a joint collaboration of members from PLoS Article Level Metrics project, Bielefeld University Library and OpenAIRE was initiated.Our incentives for this work is to further enhance the existing R package rplos provided by rOpenSci. It shall allow crosswalks based on common funding information between data coming from the PLoS Journal server, including its collected metrics, and data on documents stored in institutional repositories. In a first step, this will be worked out as part of the FP7 funded OpenAIRE project which sets out to build an Open Access Infrastructure for European research.

In this post, I propose how to a) detect the annual growth rate of PLoS ONE contributions  and b) try to forecast the further growth by applying Holt-Winters smoothing which is a time series analysis method to detect seasonal trends originating from economics [2].

Applying time series analysis on PLoS One is particularly interesting for at least two reasons: Firstly, PLoS ONE publishes each contribution right after acceptance. This forms a publishing model that differs mostly from print journals where accepted submissions are commonly published in issues. Secondly, its multi-disciplinary coverage distinguishes PLoS ONE from most other academic journals.

Methods

To act in accordance with the PLoS Search API Terms of Conditions, thereby avoiding API overload, I downloaded the latest dump of  47,430 PLoS contributions from April (available here). After table cleaning in Open Office, the resulting csv file is loaded into the R working space. In the following, I summarized the data by Journal name and publication date.

require(plyr)

my.plos <- read.csv("plosalm.csv",header=T,sep=",")

tt <- ddply(my.plos,.(Publication.Date,Journal), nrow)
# format may differ according to pre-processing routines in OO
date <- strptime(tt$Publication.Date,format="%d.%m.%Y")
year <- date$year + 1900

my.data <- cbind(tt,date, year)

After this step, a summary of publications frequencies by each year and by PLoS journal can be obtained and exported as html table (see results, Table 1).

#table
my.tab <- as.data.frame(tapply(my.data$V1, my.data[,c("Journal","year")],sum))

sum.journal <- rowSums(my.tab, na.rm=T)
my.tab <- cbind(my.tab,sum.journal)

sum.year <- colSums(my.tab, na.rm=T)
my.tab <- rbind(my.tab,sum.year)

#export as html table
require("xtable")
my.tab.x <- xtable(my.tab)
digits(my.tab.x) <- 0
print(my.tab.x, type="html", file="summaryPLoS.html")

With regard to the so gathered annual number of contributions, the Compound Annual Growth rate (CAGR) can be obtained. CAGR is used in economics to measure a year-over-year growth of an investment. In our case, we calculate CAGR for the 5 years period from 2007-2011 to describe the growth of PLoS ONE contributions.

In order to predict the future growth of PLoS ONE contributions, the Holt-Winters was applied on the obtained data as this method is sensitive to seasonal trends (see results, Figure 1). In another blog post it is described how to apply Holt-Winters in R. In a first step, the subset the table for PLoS ONE was built. Afterwards, I calculate the number of monthly contributions. The zoo package provides the tools for achieving this task.

require(zoo)
#plos one
my.plos <- subset(my.data, Journal == "PLoS ONE")

#as zoo object to monthly summary
z <- zoo(my.plos$V1, my.plos$date)

t.z <- aggregate(z, as.yearmon, sum)
#time series object
ts.q <- ts (t.z, start=c(2006,12), frequency = 12)

A time series object is created for the period beginning Dec 2006, where the first PLoS ONE contributions were published, until the end of March 2012. This forms the basis for calculating both the Holt-Winters distribution and the forecast of PLoS ONE growth until end of Dec 2013 with a confidence level of 0.95.

#Holt-Winter Distribution
ts.holt <- HoltWinters(ts.q)

forecast <- predict(ts.holt, n.ahead = 21, prediction.interval = T, level = 0.95)

plot(ts.holt,forecast, frame.plot=F, xlim=c(2007,2014), ylim=c(0,4500),
     main="Holt-Winters filtering PLoS ONE contributions")

Results

The PLoS contributions by journal and year show a moderate growth in most journals but a strong growth in PLoS One (see Table 1).

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012(Mar30)
PLoS Biology 98 456 431 423 321 327 264 304 276 65 2965
PLoS Clinical Trials 40 28 68
PLoS Computational Biology 72 168 251 287 376 414 418 121 2107
PLoS Genetics 77 208 230 352 473 471 565 184 2560
PLoS Medicine 68 434 487 346 250 199 193 206 45 2228
PLoS Neglected Tropical Diseases 42 179 224 350 445 126 1366
PLoS ONE 137 1230 2716 4405 6750 13797 4747 33782
PLoS Pathogens 41 123 198 286 459 534 556 157 2354
98 524 1055 1586 2646 4397 6400 9016 16263 5445 47430
Table 1: PLoS contributions by journal and year

On the basis of these data, a Compound Annual Growth Rate for PLoS ONE can be calculated for the 5 years period from 2007 to 2011. As a result, PLoS ONE’s annual growth rate is calculated as being 62.17 %.

Applying the Holt-Winters method, a plot can be generated, which gives first insights into the distribution (see Figure 1). The black lines highlight the observed contributions per month until the end of March 2012. The red line presents the fitted Holt-Winters values, starting in Dec 2007 until end of 2013. The blue lines highlight the upper and lower confidence intervals. The vertical line borders show observed and predicted values.

The exponential smoothing predicts the monthly observations well. However, note the sharp decline between December 2011 and January 2012. Predicting values for 2012 and 2013, following this approach, PLoS ONE will publish 18,284 contributions in 2012 (confidence interval between 15420 – 21149) and 31,978 (confidence interval between 22679 – 41279) contributions are predicted for 2013.

Discussion

If my attempt is sound, and I really do appreciate any critical comments, then the obtained growth rates will have consequences on the publishing landscape. No where else, such extreme growth rates of the general scientific literature were never reported before [3]. It also raises the question about the share of articles that do not receive any single citation. Known as the scientometric phenomena of “uncitedness”, this may be tackled by future analysis of PLoS ALM data. On a side note, the analysis reveals the seasonal decline between December 2011 and January 2012. This might, prima facie, resemble biases in the submission and selection processes in other journals [4]. This would also require further examination.

In conclusion, if these growths rates can exclusively be reported for PLoS ONE, the implications for the publishing landscape could be strong. Swift, cross-disciplinary publishing platforms could pressure the market leadership of the high impact subject-specific journals. Since PLoS ONE requires author publication fees for most of its contributions, institutional services and likewise funders covering these fees may have to consider whether this growth affects their funding activities to cover author publication fees. At least as part of our local Open Access Publication Funds of Bielefeld University activities we’ve been experiencing the growing importance in the last years, too.

The intial R source code can be found at plosOpenR GitHub repository: https://github.com/articlemetrics/plosOpenR.

I wish to acknowledge helpful comments and suggestions by Wolfram Horstmann.

Notes

[1]Example Visualizations using the PLoS Search and ALM APIs; What users do with PLoS ONE papers

[2] C. C. Holt (1957) Forecasting trends and seasonals by exponentially weighted moving averages, ONR Research Memorandum, Carnegie Institute of Technology 52. P. R. Winters (1960) Forecasting sales by exponentially weighted moving averages, Management Science 6, 324–342. Useful Introduction: P. Goodwin (2010) The Holt-Winters Approach to Exponential Smoothing: 50 Years Old and Going Strong. Forecast Spring 2010.

[3] P. Weingart (2003) Wissenschaftssoziologie, Bielefeld: transcript, pp. 35 -39.

[4] L. Bormann & H.D. Daniel (2010) Seasonal bias in editorial decisions? A study using data from chemistry, Learned Publishing, 24, 325-328.

Scheitern in der Schreibwerkstatt: Aus der Redaktion der LIBREAS. Library Ideas.

Posted in LIBREAS aktuell, LIBREAS.Projektberichte, LIBREAS.Scheitern by libreas on 11. Dezember 2011

LIBREAS-Redaktion

Beim Thema Scheitern ist die Arbeit an LIBREAS. Library Ideas überhaupt nicht auszunehmen. Vielmehr ist die Herausgabe jeder Ausgabe mit mehr Scheitern und Kompromissen verbunden, als mit Erfolgen. Dies lernt man sehr schnell, wenn man sich auf ein Projekt wie LIBREAS einlässt: Zu jedem publizierten Artikel, zu jeder umgesetzten Idee, zu jedem eingehaltenem Anspruch lässt sich auch das Gegenteil anführen. Ist das eine Eigenheit unserer Redaktion? Überhaupt nicht. Egal, in welche Redaktion man Einblick erhält, es ist ähnlich. Dabei unterscheiden sich nicht einmal wissenschaftliche, journalistische oder literarische Publikationen groß voneinander. Der Unterschied liegt höchstens darin, dass das Scheitern dort praktisch nie ein öffentliches Thema ist.

Warum machen wir das dann überhaupt? Das ist nicht so klar, wie es vielleicht nach außen erscheint. Die Zeitschrift lebt vom Engagement Einzelner und diese Einzelnen haben immer wieder unterschiedliche Meinungen, die zumindest in Redaktionskonferenzen und in den Tagen vor der Veröffentlichung einer neuen Ausgabe jedesmal neu zur Sprache kommen. (more…)

„Credit to whom credit is due“ – Bloganalysen mit Google und R

Posted in LIBREAS.Projektberichte by libreas on 31. Januar 2011

angeregt vom  wachsenden Interesse  quantitativen Untersuchungen über die Wirkung von Bloginhalten, wie zuletzt im Beitrag Blogs als Quellen in der bibliothekarischen Fachkommunikation, lässt sich ebenfalls die Verlinkung innerhalb von Blogs näher explorieren.

Um schnell an möglichen Daten zu gelangen, erscheint http://blogsearch.google.com/ vielversprechend. Dank R sind die Daten für die weitere statistische Untersuchung der Bloglinks auf den LIBREAS Blog auch ohne Programmierkenntnisse schnell gewonnen:

library(XML)

google <- "http://blogsearch.google.de/blogsearch_feeds?q=link:"

para <- "&num=100&hl=de&lr=&safe=off&output=atom"

blog <- "libreas.wordpress.com" #blog url

url<-paste(google,blog,para)#query

doc<-xmlTreeParse(url,useInternal=T)

name=xpathApply(doc, "//r:uri",xmlValue,namespaces=c(r="http://www.w3.org/2005/Atom"))

name=as.character(unlist(name))

lib<-as.character(rep(blog,times=length(name)))

df<-as.data.frame(cbind(lib,name))

Created by Pretty R at inside-R.org

Schnell noch mit table als Matrix umgewandelt, lässt sich ein Ego-Netzwerk visualisieren.  Die Knoten- und Kantengrößen entsprechen der Anzahl der Links

Das Ego-Netzwerk wurde mit visone visualisiert, aber auch R bietet mit sna entsprechende Funktionen. (more…)

#OR10 is here to come

Posted in LIBREAS on tour, LIBREAS.Projektberichte by libreas on 18. Juni 2010

by Najko Jahn

Only a few days left until the start of Open Repositories 2010 (6 to 9-JUL-2010 in Madrid, Spain). The conference brings together developers, managers and stakeholders in the context of digital repositories across the world.

In anticipation of the conference, many have already begun to share information. Given the increased attention on analysing Twitter-feeds, I performed a co-occurrence analysis of Open Repository 2010 related hash-tags with the aid of Social Network Analysis. Based on this TwapperKeeper Stat, created by Adrian Stevenson, and parsing the hash-tags out of the 64 tweets, the network allocates 34 unique twitter users and 14 hash-tags (for more methodological background see my paper on the methodological status of co-authorship-networks).

The following visualisation with the help of both R and visone is based on a spring embedder, thus assigning forces between vertices alias nodes. The nodes furthermore reflect the bipartite arrangement as well as the degree, i.e. as bigger the nodes (and their labels) the more links they receive (in the case of the hash-tags) or pass out (in the case of the users).

At a glance, it is nice to explore, how the hash-tags are related to each other and how well-connected repository developers are. But just feel free to explore for yourself. It would be of interest of how the network will evolve.

See ya  in Madrid!

Projektbericht: Automatische Aggregation wissenschaftlicher Volltexte für die Anreicherung von OA-Repositorien

Posted in LIBREAS.Projektberichte by libreas on 25. März 2010

von  Najko Jahn & Mathias Lösch

Wie lassen sich im Web befindliche Publikationen wissenschaftlicher Angehöriger einer Universität mit möglichst einfachen Mitteln finden?  Was verraten sie über wissenschaftliche Kommunikation allgemein? Und wie lassen sie sich im Besonderen für bibliothekarische Dienste wie Institutionelle Repositorien nachnutzen?

Diese Frage stellten wir uns vor dem Hintergrund zweier von der DFG geförderten Projekte an der Universitätsbibliothek Bielefeld, „Persönliche Publikationslisten als hochschulweiter Dienst (PubLister)“ und „Automatische Anreicherung von OAI-Metadaten mit Hilfe computerlinguistischer Verfahren und Entwicklung von Services für die inhaltsorientierte Vernetzung von Repositorien“. Insgesamt konnten wir aus 750 im Web veröffentlichten persönlichen Publikationslisten der Universität Bielefeld über die Suchmaschine Bing 3380 Volltext-Links  aggregieren, die für bibliothekarische Dienste eine wertvolle Datenbasis bilden können.

(more…)