Querverweise zwischen Zeitschriftenaufsätzen und Forschungsdaten: rebi, ein R-Paket für Europe PMC
Seit wenigen Tagen steht eine erste Version des R-Pakets rebi als Teil von rOpenSci zur Verfügung. rebi ermöglicht die Aggregation und Exploration der in Europe PubMed Central (Europe PMC) indexierten Veröffentlichungen und Forschungsdaten.
Zu diesem Zwecke fragt rebi den kürzlich veröffentlichten Europe PMC RESTful Web Service ab. Die API ergänzt das bereits seit längerem bestehende SOAP-Interface, das beispielsweise im Projekt OpenAIREplus die Basis für einen disziplinären Demonstrator bildete.
Ein Ergebnis des Demonstrators – die Erschließung und Sichtbarmachung von Querverweisen zwischen Publikationen und Forschungsdaten am European Bioinformatics Institute (EBI) – nutzt das Repository PUB – Publikationen an der Universität Bielefeld nach. Bis dato konnten rund 70.000 Querverweise zwischen EBI-Datenbanken wie dem European Nucleotide Archive (ENA) oder UniProt und 600 biowissenschaftlichen Veröffentlichungen automatisch identifiziert und auf Artikelebene eingebunden werden.
rebi war zunächst für die statistische Begleitung der EBI-Anreicherung in institutionelle Forschungsservices gedacht. Jedoch erlaubt das R-Paket weitere Dimensionen der Datenexploration, wie z.B die der Querweise auf Ebene eines Journals.
Die obige Abbildung zeigt die Verteilung der in Europe PMC indexierten Artikel der Zeitschrift PLOS Genetics nach Publikationsjahr. EBI-Services verweisen zu 2.226 Veröffentlichungen (Variable „Y“) von insgesamt 3.499 indexierten Beiträgen (63,61 %). Die Diskrepanz der Verteilung für das Jahr 2013 lässt sich mit dem Zeitfenster erklären, das die Datenspezialisten am EBI für ihre häufig auch intellektuelle Erschließung der Verweise nach der Journal-Veröffentlichung benötigen. Daher sollten entsprechenden Auswertungen und auch die Aggregation für eigene Bibliotheksanwendungen regelmäßig wiederholt werden.
Mit rebi lässt sich das obige Säulendiagramm mit fünf einfachen Funktionsaufrufen erstellen.
require(rebi) #get metadata for PLOS Genomics by ISSN plos.genetics <- searcheuropmc(query="ISSN:1553-7404") #format year published to date object plos.genetics$pubYear <-format(plos.genetics$pubYear, format="%Y") #relevel according to frequency of occurrence Cross-Links to EBI databases plos.genetics$hasDbCrossReferences <- factor (plos.genetics$hasDbCrossReferences, levels = c(rownames(data.frame(rev(sort(table(plos.genetics$hasDbCrossReferences))))))) #plot require(ggplot2) p <- ggplot(plos.genetics, aes(pubYear, ..count.., fill = hasDbCrossReferences)) + geom_bar() + theme_bw() + scale_fill_brewer("EBI\nCross-References",palette="Accent") + xlab("Year") + ylab("PLOS Genetics Articles") + opts(legend.key=theme_rect(fill="white",colour="white")) #save plot ggsave(plot = p, "rebi.png", h = 3.08, w = 7.2)
rebi soll kontinuierlich erweitert werden und enthält derzeit neben der allgemeinen Suchfunktion Aufrufe für die Gewinnung der bibliographischen Metadaten der referenzierten Veröffentlichungen und Zitationen sowie die Berechnung der Anzahl der EBI-Querverweise je Artikel. Weitere rebi-Funktionen können die Gewinnung der Nukleinsäuresequenzen etwa im FASTA-Format ebenso ermöglichen wie die Aggregation der vom EBI automatisch extrahierten Schlagwörter und Taxonomien.
Literatur
McEntyre J.R., Ananiadou S., Andrews S., Black W.J., Boulderstone R., Buttery P., Chaplin D., Chevuru S., Cobley N., Coleman L.-A., et al. UKPMC: a full text article resource for the life sciences. Nucleic Acids Res. 2011;39:D58–D65.PMC3013671
(Najko Jahn)
leave a comment