LIBREAS.Library Ideas

CfP #41: Big Scholarly Data – Große Datenmengen über wissenschaftliche Informationsprozesse

Posted in LIBREAS Call for Papers by Karsten Schuldt on 3. November 2021

[English version below]

Am 4. Mai 2021 verkündete Microsoft Research, eine Forschungsabteilung von Microsoft, das Ende von Microsoft Academics Services, ihrer Suchmaschine für wissenschaftliche Literatur. [1] Sie wurde gegründet, um, nach eigener Aussage, der Forschung den Zugriff auf große Datenmengen über wissenschaftliche Literatur und deren automatisierte Nachnutzung zu ermöglichen. Nun möchte sich Microsoft Research anderen Geschäftsfeldern widmen und verweist auf eine Vielzahl an Alternativen wie Crossref, Semantic Scholar oder Dimensions. 

“We remain confident in open and community-driven alternatives to MAS and are pleased to see the recent momentum across the academic ecosystem.” [2]

Dem Echo auf diese Entscheidung nach zu urteilen, sind nicht alle ebenso von diesem Schritt überzeugt. Insbesondere der Service, der die Datengrundlage als Graph technisch verfügbar machte, wurde in den letzten Jahren sowohl in der Forschung, etwa in der quantitativen Wissenschaftsforschung, als auch durch Discovery- und Analysedienste [3] breit nachgenutzt. Forschende, die ihre Arbeit darauf ausgerichtet haben, sehen nun vor allem, dass ihnen ihr Bezugspunkt aufgrund einer Unternehmungsentscheidung mit knapper Frist verloren geht.

Wir möchten das Ende der Microsoft Academics Services zum Anlass nehmen, über den Stand und Perspektiven von so genannten Big Scholarly Data an Bibliotheken und weiteren Informationseinrichtungen zu reflektieren. Mit Big Scholarly Data sind Metadaten über das Gesamtaufkommen wissenschaftlicher Aktivität und ihrer Informationsprozesse gemeint. Sie umfassen bibliographische Informationen, Angaben über Autor*innenschaften oder Zitationsdaten und die Inhalte wissenschaftlicher Publikationen selbst. [4]

In praktischer Hinsicht fragen wir nach der gegenwärtigen Rolle von Big Scholarly Data bei der Weiterentwicklung von Informationsangeboten und Dienstleistungen. Welche Angebote werden wie eingesetzt und wie gelingt die Auswertung großer Datenmengen sowohl technisch als auch inhaltlich-organisatorisch? Wo an welchen Einrichtungen wird Big Scholarly Data angewandt und welche Kompetenzen bedarf es? Welche Fragestellungen lassen sich mit Rückgriff auf Big Scholarly Data wie beantworten? 

Neben dem Bekanntmachen und Teilen praktischer Erfahrungen möchten wir Big Scholarly Data verstärkt als sozio-kulturelles Phänomen verstehen. Was bedeutet die Abhängigkeit von wenigen Anbietern, deren Daten in Informations- und Monitoringangeboten breit nachgenutzt werden? Entsteht eine Pfadabhängigkeit, die dazu führt, dass unterrepräsentierte Publikationspraxen noch stärker marginalisiert werden? Welchen Einfluss spielen Indexierungs- und Typologisierungsentscheidungen der Anbieter bei der Analyse von wissenschaftlichen Informationsressourcen im erweiterten Kontext des Wissenschaftsmanagements, etwa bei der Planung der Transformation des Zeitschriftenetats einer Bibliothek ins Open Access? Ist Big Scholarly Data die Lösung oder der Katalysator der gegenwärtigen “Auffindbarkeitskrise”? [5]

Einreichungsschluss ist der 31. März 2022.

Ihre / eure Redaktion LIBREAS. Library Ideas

(Aarhus, Berlin, Hannover, Lausanne, München)

Fussnoten:

[1] https://web.archive.org/web/20210902200418/https://www.microsoft.com/en-us/research/project/academic/articles/microsoft-academic-to-expand-horizons-with-community-driven-approach/#

[2] https://www.microsoft.com/en-us/research/project/academic/articles/microsoft-academic-to-expand-horizons-with-community-driven-approach/

[3] Siehe etwa den Open-Access-Datendienst Unpaywall. OurResearch, das Team dahinter, hat im Juni 2021 angekündigt, einen Nachfolger für den “Microsoft Academic Graph” zu entwickeln, vergleiche https://blog.ourresearch.org/were-building-a-replacement-for-microsoft-academic-graph/.

[4] Vgl. u.a. Feng Xia; Wei Wang; Teshome Megersa Bekele; Huan Liu: Big Scholarly Data: A Survey. In: IEEE Transactions on Big Data, vol. 3, no. 1, pp. 18-35, 1 March 2017, doi: 10.1109/TBDATA.2016.2641460. – “The term Big Scholarly Data is coined for the rapidly growing scholarly data, which contains information including millions of authors, papers, citations, figures, tables, as well as scholarly networks and digital libraries.“

[5] Kraker, P., Schramm, M., & Kittel, C. (2021). Discoverability in (a) Crisis. ABI Technik, 41(1), 3–12. https://doi.org/10.1515/abitech-2021-0003.


English version:

On May 4, 2021, Microsoft Research, a research division of Microsoft, announced the end of Microsoft Academics Services, their search engine for scientific literature. It was founded, according to their own statement, to enable research access to large amounts of data on scientific literature and to automate its subsequent use. Now Microsoft Research wants to devote itself to other business areas and refers to a variety of alternatives such as Crossref, Semantic Scholar or Dimensions.

“We remain confident in open and community-driven alternatives to MAS and are pleased to see the recent momentum across the academic ecosystem.” [6]

Judging by the response to this decision, not everyone is equally convinced by this step. In particular, the service that made the database technically available as a graph has been widely followed in recent years both in research, such as quantitative science research, and by discovery and analysis services. Researchers who have based their work on it are now facing the loss of their reference pointdue to an enterprise decision with a tight deadline.

We would like to take the end of Microsoft Academics Services as an occasion to reflect on the status quo and the prospects of so-called Big Scholarly Data at libraries and other information institutions. Big Scholarly Data refers to metadata about a high amount of scholarly activity and its information processes. It includes bibliographic information, authorship or citation data, and the content of scholarly publications themselves.

From a practical point of view, we ask about the current role of Big Scholarly Data in the further development of access to information and the related services. Which services are used and how, and how does the analysis of big data work both technically and in terms of content and organization? Where at which institutions is Big Scholarly Data applied and what competencies are required? Which questions can be answered with Big Scholarly Data and how?

In addition to publicizing and sharing practical experiences, we would like to understand Big Scholarly Data more as a socio-cultural phenomenon. What does dependence on a few providers whose data is widely reused in information and monitoring services mean? Does a path dependency emerge that leads to underrepresented publishing practices becoming even more marginalized? What influence do indexing and typologization decisions by vendors play in analyzing scholarly information resources in the broader context of science management, such as planning the transformation of a library’s journal budget to open access? Is Big Scholarly Data the solution or catalyst to the current „discoverability crisis“?

Deadline for submissions is March 31, 2022.

Your Editors LIBREAS. Library Ideas

(Aarhus, Berlin, Hannover, Lausanne, Munich)

Footnotes:

[6] https://www.microsoft.com/en-us/research/project/academic/articles/microsoft-academic-to-expand-horizons-with-community-driven-approach/

Warum Forschungsdaten nicht publiziert werden.

Posted in LIBREAS.Dokumente, LIBREAS.Projektberichte by Ben on 13. März 2018

Eine Zusammenstellung und Notiz von Ben Kaden (@bkaden)

Eine große und vermutlich noch zu wenig systematisierte Frage aller Diskussionen um eine Offene Wissenschaft lautet zumindest für die in diesem Bereich aktiven Infrastrukturen: Was spricht eigentlich dagegen? Die Erfahrung aus dem Open-Access-Bereich und mehr noch aus dem der Open Science bzw. Open Scholarship zeigt, dass es nicht selten eine erhebliche Lücke zwischen Wünschen, Zielen und Vorstellungen der Forschungsinfrastruktur und den besonders engagierten fachwissenschaftlichen Vertreter*innen in diesem Bereich und einer Gruppe gibt, die hier verkürzt als “Mainstream” der Wissenschaft bezeichnet werden kann.

Eine wichtige, wenngleich auch nicht ganz überraschende Einsicht aus den jahrelangen Auseinandersetzung mit der Offenen Wissenschaft muss lauten, dass die meisten Forschenden vor allem forschen möchten und zwar in der ihnen vertrauten Logik der Publikations- und wissenschaftlichen Publikationskulturen. Defizite auch der Publikationssysteme werden durchaus erkannt, aber nur dann tiefer adressiert, wenn sie zu spürbaren Behinderungen ihrer Forschung führen. In den meisten Fällen wollen Forschende jedoch nicht als Innovator*innen für wissenschaftskommunikative und -infrastrukturelle Lösungen in einer Weise aktiv werden, die zu einer Umwidmung der Aufmerksamkeit vom Forschungsgegenstand auf diese Metastrukturen der wissenschaftlichen Kommunikation führt. Wo also der Leidensdruck im Umgang mit bestehenden Systemen und Praxen aus Sicht der Forschenden nicht übermäßig hoch ist und tradierte Formen nach wie vor die besten Karrierewege öffnen, werden auch hochengagierte und raffiniert geschliffene Keynote-Apelle wenig verändern. Für wissenschaftliche Bibliotheken und andere Akteure der Wissenschaftsinfrastrukturen ist es folglich unerlässlich, zu wissen, welche Ansprüche, Herausforderungen und Ziele in den einzelnen Communities existieren. Die Gründe, warum Forschungsdaten und -materialien disziplinär zwar unterschiedlich intensiv aber nach wie vor eher selten unter den Idealvorstellungen der Offenen Wissenschaft zugänglich gemacht werden, zählen dazu.

Auf dem gestern (12.März 2018) bei der Wikimedia durchgeführten Open-Science-Bar-Camp des Leibniz Forschungsverbunds Science 2.0 gab es genau dazu eine Session „Valid reasons for opting out of sharing openly“, zur der einige Stichpunkte freundlicherweise auch für alle die sichtbar, die nicht teilnehmen konnten, in einem Etherpad hinterlegt wurde: https://etherpad.wikimedia.org/p/oscibar2018_session13

Ich habe mir erlaubt, diese ein wenig zu clustern und auszuformulieren. Im Anschluss an diese Liste ergänze ich noch einige Stichpunkte aus dem eDissPlus-Projekt, das sich mit den Möglichkeiten des dissertationsbegleitenden Zugänglichmachens von Forschungsdaten befasste.

Aufwand

  • Forschende wollen ihre Zeit lieber in die Forschung selbst als in die Organisation eines Austauschprozesses für Forschungsdaten investieren.
  • In der Projektplanung sind keine zeitlichen und personellen Ressourcen für die Aufbereitung von Forschungsmaterialien und Forschungsdaten für ein Teilen bzw. eine Veröffentlichung vorgesehen.
  • Die Veröffentlichung bzw. Zugänglichmachung von Forschungsdaten und Forschungsmaterialien wurden nicht bei der Projektplanung bzw. beim Erstellen des Forschungsdatenmanagementplans berücksichtigt und ist nachträglich zu aufwändig umzusetzen.

Datenschutzrecht

  • Die Veröffentlichung bzw. Zugänglichmachung von Forschungsdaten und Forschungsmaterialien ist aus datenschutzrechtlichen Gründen ausgeschlossen.
  • Für eine Zugänglichmachung bzw. Publikation von personenbezogenen Daten liegt keine informierte Einwilligung vor.

Institutionelle / infrastrukturelle Ausstattung

  • Die eigene Einrichtung bietet keine ausreichende Unterstützung sowohl infrastrukturell als auch beratend für die Verfügbarmachung bzw. Publikation von Forschungsdaten und Forschungsmaterialien an.

Institutionelle Vorgaben

  • Prüfungsordnungen untersagen Promovierenden eine Publikation von Teilen der Promotion vor Abschluss des Promotionsverfahrens.
  • Es gibt keine formalen Auswahlkriterien, welche Forschungsdaten bzw. Forschungsmaterialien wie zugänglich gemacht werden sollten.

Möglichkeiten und Kompetenzen des Teilens / Publizierens

  • Wissenschaftler*innen ist nicht bekannt, wo sie ihre Daten für eine Weitergabe hinterlegen können.
  • Wissenschaftler*innen sind nicht zureichend geschult, um Forschungsmaterialien bzw. Forschungsdaten wissenschaftlichen Publikationsstandards entsprechend zugänglich zu machen bzw. zu publizieren.
  • Forschungsdatenpublikationen sollen ein Peer-Review-Verfahren durchlaufen, das jedoch möglicherweise noch nicht existiert. Die nicht peer-reviewte Publikation von Forschungsdaten wird abgelehnt.

Persönliche Einstellung / Datenkontrolle / Wissenschaftsethik

  • Wissenschaftler*innen  sind am Thema Open Science / Offene Wissenschaft nicht interessiert.
  • Wissenschaftler*innen möchten gern wissen, wer ihre Forschungsmaterialien und Forschungsdaten nachnutzt, weshalb sie diese nur auf persönliche Anfrage weitergeben würden bzw. sich vorbehalten, eine Weitergabe abzulehnen.
  • Kooperationspartner in einem Forschungsdaten sprechen sich gegen eine Verfügbarmachung bzw. Publikation der im Projekt erzeugten Forschungsdaten und Forschungsmaterialien aus.
  • Die Zugänglichmachung von Forschungsdaten bzw. Forschungsmaterialien wird bewusst verweigert, weil entsprechende Anregungen und Vorgaben als Eingriff in die persönliche Wissenschaftsfreiheit interpretiert werden.
  • Die eigenen Forschungsdaten bzw. Forschungsmaterialien werden als für eine Weitergabe zu wenig relevant eingeschätzt.
  • Wissenschaftler*innen möchten verhindern, dass ihre Forschungsdaten bzw. Forschungsmaterialien für von ihnen nicht gewünschte Zwecke nachgenutzt werden.
  • Es bestehen Zweifel daran, dass Dritte die Forschungsdaten bzw. Forschungsmaterialien wissenschaftlichen Standards entsprechend nutzen können.
  • Es besteht die Sorge, dass durch Zugänglichmachung von Forschungsdaten bzw. Forschungsmaterialien Schwächen der Datenerhebung und -analyse sichtbar werden.
  • Die konkreten Forschungsdaten bzw. Forschungsmaterialien sind in einer Weise manipuliert, die verborgen bleiben soll.

Verlags-, Urheber- und Nutzungsrecht

  • Wissenschaftler*innen haben die Nutzungs- und Verwertungsrechte im Zuge einer Copyright-Vereinbarung an einen Wissenschaftsverlag übertragen und besitzen daher keine Verfügungsmöglichkeiten zum Teilen bzw. Veröffentlichen von Forschungsdaten.
  • Promovierende, deren Forschungsprojekt in Kooperation mit Dritten stattfindet, haben nur begrenzt Verfügungsrechte über ihre Forschungsdaten bzw. Forschungsmaterialien. Dies betrifft insbesondere Kooperationen mit kommerziellen Partnern.
  • Es ist nicht bekannt, wer die rechtliche Eigentümerschaft zu den jeweiligen Forschungsdaten bzw. Forschungsmaterialien besitzt.

Weitere Rechtsgebiete / Wissenschaftsethik

  • Das Forschungsthema ist zu sensibel als dass die Forschungsmaterialien und Forschungsdaten frei und international verfügbar gemacht werden können.
  • Es ist unklar, wer langfristig die Verantwortung für die jeweiligen Forschungsdaten bzw. Forschungsmaterialien übernimmt.

Wissenschaftssoziologie

  • Forschungsdaten und -materialien gelten als wissenschaftliches Kapital und werden (noch) zurückgehalten, weil sie in einem späteren Projekt weiter ausgewertet werden sollen.
  • Forschungsdaten und  Forschungsmaterialien sollen als exklusives Asset für einen Antrag auf Projektförderung angeführt werden. Sind sie frei verfügbar, sinkt, so die Wahrnehmung, die Chance auf Förderung.
  • Forschungsdaten und Forschungsmaterialien sollen zunächst exklusiv weiter beforscht werden, weshalb eine Publikation bzw. Zugänglichmachung bestenfalls nach einem Embargo in Frage kommt.
  • Die Publikation bzw. das Teilen von Forschungsmaterialien und Forschungsdaten wird nicht ausreichend als wissenschaftliche Leistung gewürdigt.

Wissenschaftsfreiheit

  • Das Prinzip der Open Science / Offenen Wissenschaft sollte nicht als Druck wirken – im Sinne der Wissenschaftsfreiheit sollten Wissenschaftler*innen selbst entscheiden ob bzw. wie bzw. wann sie Materialien und Forschungsdaten zugänglich machen.

Aus den Erfahrungen des eDissPlus-Projektes, das Einstellungsmuster von Promovierenden zum Publizieren von Forschungsdaten untersuchte,lassen sich, wie angekündigt, noch einige weitere Hürden benennen bzw. genannte Aspekte weiter differenzieren. Dies sind u.a.:

Aufwand

  • Der Aufwand für eine dissertationsbegleitende Forschungsdatenpublikation wird nur sehr selten in der Dissertationsplanung und – sofern überhaupt vorhanden – in Forschungsdatenmanagementplänen berücksichtigt.

Institutionelle und disziplinäre Vorgaben / Rahmenbedingungen

  • In vielen Bereichen fehlen für Forschungsdatenmanagement und das Publizieren von Forschungsdaten Standards, die eine Orientierung geben können.
  • Forschungsdatenpolicies werden im Einzelfall häufig als untauglich empfunden, u.a. da sie zum Beispiel datenschutzrechtliche sowie weitere rechtliche Einschränkungen einer möglichen Forschungsdatenpublikation in keiner Weise würdigen.
  • In vielen Disziplinen gibt es keinen nachhaltigen und systematischen Austausch darüber, welchen Stellenwert und welche Form Forschungsdatenpublikationen für wissenschaftliche Kommunikation haben sollten.
  • Prüfungsordnungen treffen in der Regel keine Aussagen zu Forschungsdatenpublikationen und bieten daher auch keine Orientierung.
  • Für den Titelerwerb sind Forschungsdatenpublikationen in den meisten Fällen nicht erforderlich.

Kompetenzen und Kompetenzvermittlung

  • Bereits für das generelle Forschungsdatenmanagement werden häufig Vermittlungsdefizite benannt: Das Thema findet in Lehre und Methodenausbildung kaum statt. Die Frage der Forschungsdatenpublikation wird in der Regel überhaupt nicht angesprochen.
  • Da in vielen Disziplinen Forschungsdatenpublikationen unüblich sind, kommen Promovierende auch bei der Literatursuche nicht mit dieser Gattung in Kontakt. Die Idee und Möglichkeit einer Forschungsdatenpublikationen ist ihnen daher häufig nicht bekannt.

Persönliche Einstellung / Datenkontrolle / Wissenschaftsethik

  • Forschungsdaten werden im Rahmen von Promotionsprojekten häufig mehr als Mittel zum Zweck als als eigene publikationswürdige Größe angesehen.
  • Promovierende sehen sich angesichts der geringen Etablierung von Forschungsdatenpublikationen in vielen Bereichen überfordert und nicht in der Lage, zusätzlich zu ihrer Promotion entsprechende Pionierarbeit für die Publikationskulturen ihrer Fächer zu leisten.

Rechtliche Aspekte

  • Promovierende können oft die u.a. urheber- bzw. erheber-rechtlichen Folgen einer Forschungsdatenpublikation nur unzureichend abschätzen. So scheint die Bedeutung der Creative-Commons-Lizenzen für konkrete Szenarien oft wenig eindeutig.
  • Das Datenschutzrecht steht einer Publikation von dissertationsbegleitenden Forschungsdaten mit Personenbezug aktuell in fast allen Fällen im Weg, u.a. da selten Forschungsdatenpublikationen von vornherein eingeplant und in den jeweiligen informierten Einwilligungen nicht vorkommen. Das nachträgliche Einholen eine Publikationserlaubnis ist oft nicht möglich oder wird als deutlich zu aufwändig eingeschätzt.

Wissenschaftssoziologie / Forschungsdatenkontrolle

  • Forschungsdatenpublikationen versprechen in den meisten Fällen keinen zusätzlichen Reputationsgewinn. Teilweise wird von den Gutachter*innen eine dissertationsbegleitende Forschungsdatenpublikation sogar als potentiell schädlich eingeschätzt.
  • Forschungsdaten gelten bei vielen Promovierenden als wissenschaftliches Kapital. Besteht die Bereitschaft zur Weitergabe, wird eine selektive Zugänglichmachung auf Anfrage deutlich gegenüber einer allgemeinen Zugänglichmachung als Publikation bevorzugt.

Beide Auflistungen sind sicher keinesfalls erschöpfend. Zu vielen Aspekten wären auch vertiefende Einzeluntersuchungen sinnvoll und notwendig. Deutlich wird jedoch bereits an dieser losen Reihung, dass individuelle Einstellungsmuster zwar einen wichtigen Aspekt darstellen und entsprechend Lobbyarbeit für Open Access und weitere Elemente der Offenen Wissenschaft sicherlich sinnvoll ist. Nachhaltig wirksam werden sie aber nur sein können, wenn auch entsprechende Rahmenbedingungen existieren und zwar sowohl infrastrukturell als auch fachkulturell.

Ein offensichtliches Haupthindernis liegt sicher im aktuell in vielen Fällen deutlichen Missverhältnis von Aufwand und Nutzen. Eine wissenschaftlichen Standards entsprechende Forschungsdatenpublikation erfordert gerade auch angesichts des Mangels an Best-Practice-Beispielen und auch im Einzelfall passenden Leitlinien eine vergleichsweise hohe zusätzliche Arbeitsbelastung, der jedoch kein erwartbarer Reputationsgewinn entgegen steht. Je niedrigschwelliger hier Infrastrukturen Beratung und andere Dienste anbieten können, desto besser. Die Universitätsbibliothek wurde von vielen der befragten Promovierenden im eDissPlus-Projekt als natürliche Ansprechpartnerin für alle Fragen zum Thema Forschungsdaten angesehen und zwar auch für Aspekte, die man gemeinhin eher den Instituten und der dortigen Ausbildung zugeschrieben hätte. Man wünscht sich von der Bibliothek idealerweise ein umfassendes Spektrum an Dienstleistungen von der Beratung über Cloud-Dienste bis zur Langzeitarchivierung für komplexe Datenstrukturen. Was davon wie tatsächlich angeboten werden kann, ist allerdings eine andere Diskussion. In der Erwartungshaltung der Promovierenden, die mit hoher Kompetenz an Forschungsdaten gehen, ist Github ein Benchmark. Bei den anderen eher Dropbox. Im Ergebnis weist der Wunsch in eine Richtung, die beide Dienste mit umfassenden Beratungsangeboten verbindet und überschätzt nebenbei deutlich die Entwicklungskapazitäten, die die öffentliche Hand an dieser Stelle bereitzustellen vermag.

Die zweite große Herausforderung liegt in einer unklaren Rechtslage in Bezug auf Forschungsdaten. Hierzu gab es im Januar 2018 einen Workshop an der Viadrina in Frankfurt/Oder, der erwartungsgemäß wenige Antworten dafür aber noch tiefere Einblicke in die Komplexität der Gemengelage bot.

Und schließlich fehlen für viele Disziplinen tatsächlich praktikable Infrastrukturangebote, auch übrigens von Verlagen oder anderen kommerzieller aufgestellten Anbietern, für eine zeitgemäße und dauerhafte Zugänglichmachung von Forschungsdatenpublikationen. Das Druckparadigma, dass sich im PDF-Format vergleichsweise angenehm spiegeln ließ, funktioniert für digitale Forschungsdaten endgültig nicht mehr. Will man sie zum festen Teil der wissenschaftlichen Kommunikation werden lassen, benötigt man oftmals überhaupt erst einmal adäquate mediale Präsentationsformen – eine Debatte übrigens, die in zahlreichen Bereichen bestenfalls nebenbei geführt wird. Implizit lässt sich hier auch aus den eDissPlus-Befragungen ein weiteres sehr großes Hindernis für Forschungsdatenpublikationen ermitteln: Die Daten sind u.U. mit den bestehenden Möglichkeiten gar nicht sinnvoll als Publikation darstellbar.

Zu all diesen Problemen existiert selbstverständlich engagierte Arbeit hinsichtlich möglicher Lösungen, auch wenn die Digitalisierung der Wissenschaft gerade im Infrastrukturbereich noch ganz anders auch von den Träger- und Förderinstitutionen adressiert werden könnte, als dies bislang geschieht. So ermöglicht beispielsweise der edoc-Server seit diesem Jahr Forschungsdatenpublikationen. Auch Zenodo kann als gelungenes Beispiel für einen zeitgemäßen Publikationsserver für alle möglichen Materialien gelten. Dass Forschungsdaten auf den Publikationsservern mit Metadaten erschlossen, mit DOIs versehen werden und wenigstens teilweise sogar in Bibliothekskatalogen bibliografiert erscheinen, mag ebenfalls ein früher Schritt in Richtung Anerkennung als ordentliche wissenschaftliche Publikation sein. Aber damit endet in den meisten Fällen die Reichweite dessen, was die Bibliotheken und Infrastrukturen zu leisten in der Lage sind.

Die Selbstorganisation der Wissenschaft macht es erforderlich, dass sich die Fachkulturen darüber verständigen, welchen Stellenwert in welcher Form die Publikation von Forschungsdaten und anderen Forschungsmaterialien für sie einnehmen kann und soll. Sie müssen selbst ausdiskutieren, prüfen und entscheiden, ob sie zum Beispiel ein Peer Review wollen, ob komplexe Forschungsdatenpublikationen auch berufungsrelevant sein können, welche Formate sie bevorzugen und welche Metadaten sie brauchen. Die Infrastrukturseite kann aufzeigen, was möglich ist, kann Erfahrungen, Erkenntnisse und Überblickswissen vermitteln. Dafür brauchen wir Veranstaltungen wie das Open-Science-Bar-Camp und Wissenschaftsforschung, wie sie im eDissPlus-Projekt stattfinden konnte. Die Absicherung eines Wissenstands auf der jeweiligen Höhe der Zeit zu den Praxen und Wünschen der Fachkulturen einerseits und den technischen Möglichkeiten andererseits ist bereits für sich eine enorme Herausforderung und zugleich Minimalbedingung jeder zielorientierten Infrastrukturentwicklung. Bereits dafür benötigt man, wenn man so will, Brückenakteure, die sowohl Fach- und Publikationskulturen als auch Ziele, Möglichkeiten, Grenzen von Wissenschaftsinfrastruktur und -organisation kennen. Man braucht solche Akteure aber noch mehr, wenn es darum geht, den eigentlichen Schritt einer digitalen Wissenschaft zu gehen, nämlich die Infrastruktur mit der wissenschaftlichen Kommunikation und an bestimmten Stellen direkt mit der Forschung zu verzahnen. Wir können auf Barcamps und in Workshops umfassend darüber diskutieren, warum Forschende ihre Daten nicht publizieren. Greifbare und praktikable Lösungen werden sich jedoch erst dann daraus ableiten lassen, wenn diese Diskussionen auch mit den Wissenschaftler*innen geführt werden. Dazu ist es notwendig beide Seiten nicht nur zu kennen, sondern in einem stetigen Dialog zu halten. Ich habe eingangs bemerkt, dass Forschende vor allem forschen und sich möglichst wenig mit Infrastrukturfragen befassen wollen. Dies ändert sich bei der digitalen Wissenschaft natürlich dann, wenn Infrastruktur und Forschung zusammenfallen. Ein gutes Beispiel unter anderem auch für die Schwierigkeiten dieser Entwicklung sind die Digital Humanities.

Wir, als Vertreter zum Beispiel der Universitätsbibliotheken bemühen uns unter anderem in Projekten wie eDissPlus intensiv darum, zu verstehen, was die Forschenden als Zielgruppen umtreibt. Konsequent gedacht könnte sich das Konzept der Zielgruppe allerdings an nicht wenigen Stellen zunehmend relativieren und das Gewicht deutlich in Richtung einer Partnerschaft verschieben. Ein unmittelbares Desiderat ist aktuell ein Forum oder eine Form, das bzw. die es uns ermöglicht, Erkenntnisse wie die oben zusammengetragenen in einen übergreifenden und gestaltungsorientierten Dialog mit allen Stakeholdern einzubringen. Ein zweites ist häufig eine stabile und ein idealerweise unkomplizierte Struktur, die es nach Ende von Projekten von eDissPlus erlaubt, über die, wenn man so will, Anamnese hinaus, zu konkretisieren, wie, mit welchen Mitteln und an welchen Stellen die in diesem Fall identifizierten Hürden abgebaut werden können. Diese Situation steht dabei exemplarisch für etwas sehr Generelles: Die Ansprüche einer Offenen Digitalen Wissenschaft werden sich nur als Projekt des Gesamtsystems Wissenschaft realisieren lassen.

(Berlin, 13.03.2018)

Dienste für die dissertationsbegleitende Publikation von Forschungsdaten. Eine Vortragsnachlese.

Posted in LIBREAS.Dokumente by Ben on 7. Juni 2017

Eine Notiz von Ben Kaden (@bkaden)

In dervergangenen Woche fand bekanntlich in Frankfurt am Main der Bibliothekartag 2017 statt, eine seltsam buchfreie und ausgiebig betwitterte Veranstaltung, die wie immer ein ganz guten Rundumblick über den Diskursstand des deutschen Bibliothekswesens lieferte. Das Gesetz zur Angleichung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG) und die dagegen anlaufende Initiative der deutschen Presse waren naturgemäß ein Thema auch der Pausengespräche. Digitalisierung, die ja im Prinzip alles mögliche, u.a. Social Media, umfassen kann, ein anderes und begleitet die Veranstaltung nun schon fast zwei Jahrzehnte. Innovation wurde ein weiteres Mal verkündet und eingefordert. Informationsethik wurde kritisiert. Und es wurde, vielleicht am interessantesten, festgestellt, dass es im deutschen Bibliothekswesen oft offenbar schwer fällt,sowohl qualifizierte als auch motivierte Persönlichkeiten für Leitungsstellen zu finden.

Selbstverständlich bleibt Eindruck auch von der Themensetzung nur fragmentarisch, da LIBREAS-Vertreter_innen zwar hier und da durch das Kongresszentrum der Frankfurter Messe wanderten, in der Regel aber mit ihren hauptberuflichen Schwerpunkten und Aufgaben ausreichend beladen und entsprechend zielstrebig. Und mancher kam nur für einen Vortrag und also nur einen halben Tag nach Frankfurt, winkte hier und da jemandem zu, besuchte ein Panel zu Altmetrics, das zu großen Teil Richtung Firmenpräsentation driftete und die Einsicht aufdrängte, dass das Rad der Webanalyse mit Big-Data-Methoden gerade neu erfunden wird.

Nicht neu erfunden, mittlerweile sehr nachdrücklich behandelt wird dagegen das Themenfeld der Forschungsdaten. In dieses fügt sich nun auch der Vortrag ein, zu dessen Nachbereitung nachfolgend einige Kernpunkte fixiert werden. Gegenstand der kurzen Präsentation waren Erkenntnisse aus dem eDissPlus-Projekt. Da sich zudem direkt im Anschluss zur Präsentation, wenn auch zu einem anderen Aspekt des Projektes, in der Twittersphäre Missverständnisse offenbarten, die auch mit den Besonderheiten der Konferenzatmosphäre zusammenhängen können, ist das nur zusätzlich Anlass zur Wiederholung und Erläuterung des Präsentierten. Dies geschieht ausdrücklich mit dem Wunsch, eine Diskussionsvorlage zu bieten. Im vorliegenden Rahmen muss die Darstellung allerdings auf den Präsentationsteil der Humboldt-Universität beschränkt bleiben und dort auf die Befragungen mit Promovierenden und Post-Docs zu Einstellungs- und Erfahrungsmustern hinsichtlich einer denkbaren Publikation von Forschungsdaten.

(more…)

LIBREAS.Library Ideas LIBREAS.Dokumentation. Heute: Thesen des Rat für Informationsinfrastrukturen (RfII) zu den Voraussetzungen einer Nationalen Forschungsdateninfrastruktur (NFDI)

Posted in LIBREAS.Dokumente by Ben on 27. April 2017

von Ben Kaden (@bkaden)

Spricht man über die Möglichkeit und Notwendigkeit einer systematischen Organisation von digitalen Forschungsdaten (Forschungsdatenmanagement) sowie ihrem übergreifenden Nachweis und idealerweise auch ihre Verfügbarmachung per Publikation, sind vor allem drei Gruppen von Stakeholdern zu berücksichtigen. Die erste fasst in etwas die Forschungspolitik-, administration und -förderung. Die zweite besteht aus der Forschungsinfrastruktur, also Bibliotheken, Rechenzentren, Netzwerkanbietern etc. Beide Gruppen haben sich, verkürzt formuliert, weitgehend darauf verständigt, dass das Ziel einer offenen Wissenschaft (Open Science und Open Scholarship) erstrebenswert ist und man daraufhin arbeiten sollten, sie als Normalmodus zu etablieren. Und dazu zählt auch die möglichst weitreichende (=offene) Verfügbarkeit der Daten, die bei der Forschung entstehen. Die Hauptgründe dafür sind die Forschungstransparenz und die Nachnutzung.

Dass die Hauptakteure, nämlich die dritte Gruppe in Gestalt der Forschenden, die diese Daten produzieren, potentiell rezipieren, vielleicht bewerten und möglicherweise nachnutzen, noch nicht flächendeckend in diese Richtung streben, erweist sich bei diesem Streben als Herausforderung. Oder auch: Hürde. Theoretisch sind sie sogar oft mit im Boot. Praktisch jedoch scheuen sie jedoch einerseits den zusätzlichen Aufwand, wenn es an den tatsächlichen Schritt hin zu Forschungsdatenpublikationen geht. Oder sie finden, wie gleich noch einmal angedeutet wird sogar nachvollziehbar, Gründe, warum es in ihrem konkreten Fall jeweils nicht möglich ist, diesem Ziel zu folgen. (more…)

Warum die Publikation von Forschungsdaten nach wie vor ein begrenztes Phänomen bleibt.

Posted in LIBREAS.Referate by Ben on 5. April 2017

Eine Notiz im Anschluss an

Jens Klump: Data as Social Capital and the Gift Culture in Research. In: Data Science Journal. 16, p.14. DOI: http://doi.org/10.5334/dsj-2017-014

von Ben Kaden (@bkaden)

Wer sich mit dem Thema der Forschungsdatenpublikation befasst, kann die Lücke zwischen allgemeinen in Forschungsdaten-Policies verkündeten Anspruch an einen offenen Zugang zu diesen Daten und der Wissenschaftspraxis nicht übersehen: Trotz aller wohlbegründeten Argumente ist die Zahl der publizierten Datensätze sehr überschaubar. Andererseits ist das Konzept der Forschungsdatenpublikation nur dann wirklich nachhaltig und sinnvoll, wenn solche Veröffentlichungen nicht insular und aus dem Enthusiasmus einzelner Forschender heraus geschehen, sondern dort, wo sie sinnvoll sind, ein Eckstein wissenschaftlichen Austauschs bilden. Wissenschaft lebt von Systematizität. Wenn Forschungsdatensätze eher zufällig auf einem Repositorium landen, ist es sicher besser als keine Verfügbarkeit. Aber es ist eben nicht wissenschaftlich und ähnelt im Fall einer Nachnutzung eher dem glücklichen Zufallsfund im Archiv, während der Normalfall bleibt, dass man keine Daten für seine Forschungsfrage findet. Auch wenn es eigentlich welche gäbe.

Gemeinhin werden drei Gründe für Forschungsdatenpublikationen benannt: Forschungstransparenz, Nachnutzung und der Erwerb wissenschaftlicher Reputation. Abgesehen von ethisch besonders motivierten Publizierenden dürfte vor allem der Aspekt einer die Anrechenbarkeit von Forschungsdatenpublikationen als wissenschaftliches Kapital der Schlüssel zu einer weiteren Verbreitung sein. Insofern ist es unter anderem wichtig, Datenpublikationen so zitier- und verfügbar zu halten, wie es auch Aufsatzpublikationen sind. Die übergeordnete Sachlage ist aber selbstverständlich komplexer.

In einem aktuellen Aufsatz für das Data Science Journal geht nun Jens Klump der Frage nach, weshalb Data-Sharing-Policies bisher nur begrenztes Echo in den Fachkulturen und ihren Kommunikationspraxen finden. Er nähert sich der Frage wissenschaftssoziologisch und argumentiert nachvollziehbar, dass es nicht ausreicht, Forschungsdateninfrastrukturen aufzubauen. Vielmehr, so lässt sich ergänzen, sind diese eine Basisanforderung, um Data-Sharing-Praxen zu stimulieren. Entscheidend ist jedoch eigentlich, die Verfassung des sozialen Systems der Wissenschaft als eine „Reputation Economy“ zu verstehen und aus diesem Verständnis heraus passende Ansatzpunkte für Anreize zu setzen. Der einschlägigen Infrastrukturforschung bescheinigt Jens Klump dahingehend Defizite. Wenn also in der Reputationsökonomie der Wissenschaft die eigenen wissenschaftlichen Handlungsmöglichkeiten (z.B. über Fördermittel und Anstellungen) mittels kommunikationsbasierten Erwerb von Reputation und wissenschaftlichem Status gesichert und ausgebaut werden, dann sollte das Phänomen der Forschungsdatenpublikation folgerichtig in dieses System grundlegend integriert werden.

Interessant ist nun die durch den Übergang von einer vorwiegenden Individualwissenschaft zu einer Kollaborationswissenschaft (oft, aber nicht nur, in Gestalt von Großforschung) auftretende Verschiebung der Anforderungen. Im zweiten Fall bedarf es für eine Karriere mehr als Reputation – es gilt die Balance zwischen Reputationsgewinnen und Kollaborationsgewinnen zu finden. Man muss also in der kollaborativen Forschung nicht nur als Individuum wissenschaftlich hochklassig arbeiten, sondern zugleich an den richtigen Punkten ein geschickter Teamspieler sein.

Zwangsläufig betonen und belohnen, wie auch Jens Klump herausstellt, kollaborativ orientierte Fachkulturen das Teilen von Forschungsressourcen und also auch Forschungsdaten stärker als Kulturen, in denen der Schwerpunkt hauptsächlich auf  dem Reputationsgewinn des einzelnen Forschers liegt. Zieht man dies heran, erklärt sich auch das Spannungsverhältnis zwischen den sehr auf Kollaboration gerichteten Digital Humanities und den traditioneller ausgerichteten Geisteswissenschaften, bei denen sich Forschende häufig selbst als primär Werkschöpfende mit allen Ansprüchen an eine so genannte „Werkherrschaft“ sehen. Die aktuellen deutschen Urheberrechtsdebatten (Stichwort Publikationsfreiheit.de) könnten also maßgeblich von der Sorge um Reputationseinbußen getrieben werden. Zugleich stehen sie deutlich erkennbar den Ansprüchen kollaborationsorientierter Wissenschaft entgegen. Während die traditionellen Individualwissenschaften Erkenntnis primär zentriert auf den individuellen Forscher als Erkennenden (und idealweiser Ersterkennenden) gelesen und interpretiert haben, fokussieren, so eine natürlich etwas verkürzte Deutung, Kollaborationskulturen viel stärker den Forschungsgegenstand und das Erkenntnisziel als Fixpunkte. Sie behandeln die Forschenden zwar nicht als beliebig austauschbar, aber doch als stärker hinter die Forschungsziele zurücktretend. Ist das eigentliche Ziel nun idealerweise der Erkenntnisfortschritt selbst, so scheint es auch deutlich plausibler und vermittelbarer, dass zum Beispiel die Bereitstellung von Forschungsdaten für die Community im Sinne dieses Fortschritts stärker zu gewichten ist, als der individuelle Anspruch als Erheber dieser Daten auch eine umfassende Datenherrschaft ausüben zu können.

Individualwissenschaftliche Praxen knüpfen dagegen stärker die Originalität einer Erkenntnis an die konkrete forschende und erkennende Person als Urheber. Zu viel Transparenz oder gar die Bereitstellung der eigenen Datengrundlage (zum Beispiel in Form von Annotationen) für ähnlich motivierte Forschende (=Konkurrenten) wird zwangsläufig als erhebliche Preisgabe wissenschaftlichen Kapitals gesehen, aus dem das soziale Kapital gewonnen wird, mit man seine Karriere macht.

Einen Sonderfall stellt die Auftragsforschung dar, wenn sie das Ziel des Intellectual Property mit Teamforschung verbindet und zum Beispiel Patentierbarkeit des Erkenntnisproduktes anstrebt. Dann greifen ähnliche Zurückhaltungsmechanismen und eine Preisgabe u.a. der Datengrundlage oder auch der Verfahrensbeschreibung ist vor Sicherung des Patents und damit des rechtlich stabilisierten Verwertungsanspruchs unbedingt zu vermeiden.

Mit der Zunahme von Public-Private-Partnership-Projekten verkompliziert sich die Frage nach den Anreizen zum Teilen von Forschungsdaten demnach zusätzlich. Wissenschaft ist somit keinesfalls als isoliertes soziales System zu betrachten, auch wenn diese Sicht zunächst einmal hilft, um über die Idee einer idealtypischen Reputationsökonomie nach den passenden Interventionspunkten zugunsten einer stärkeren Öffnung wissenschaftlicher Arbeit zu suchen. Die Kommodifizierung der Erkenntnisproduktion verlagert den als für das wissenschaftliche Verhalten bestimmend definierten Peer Pressure in stärker rechtlich regulierte Bedingungen. Für denkbare Anreize zum Teilen von Forschungsdaten und -verfahren muss dies nicht schlecht sein, weil man auf rechtlichem Wege stärker auch verbindliche Mandatierungen anstreben kann – so wie die Nicht-Veröffentlichung bereits jetzt bei der Auftragsforschung klar mandatiert wird.

Abgesehen davon ist es zweifellos nach wie vor sinnvoll, auch die impliziten Normen des sozialen Systems Wissenschaft zu adressieren. „[P]ublishing data must add to reputation“ (vgl. Klump, S. 5) ist eine Basisformel für das Schaffen von Anreizen für die Forschungsdatenpublikation, die jede/r in diesem Bereich Aktive berücksichtigen sollte. Denn ohne die Aussicht auf einen potentiellen Reputationsgewinn wird es schwer, den erheblichen Mehraufwand einer soliden Datenpublikation zu vermitteln. Wissenschaftsethische Argumente werden selbstverständlich gern gehört und Ideen einer Open Scholarship stoßen selten auf Widerspruch. Ebenso selten haben sie freilich eine Wirkung, die über ein „Ja, man müsste..“ hinausreicht. Der aktuell wirksamste Weg zur Anregung von Datenpublikationen scheint die zunehmende Einforderung von Begleitdaten durch (High-Impact-)Journals, die einen gewissen Zwang mit einem Reputationsversprechen verknüpft. (vgl. zu solchen Supplementary Materials auch diesen Artikel im eDissPlus-Blog)

Dass Datenzitation (und Zitationsindices) und damit einhergehend Reputationsgewinne jedoch vergleichbar mit dem Publizieren von formalen Wissenschaftspublikationen wie Aufsätzen und auch Monografien größeren Einfluss haben werden, scheint trotz allem aktuell wenig wahrscheinlich. Während eine wissenschaftliche Erkenntnis selbst publiziert werden muss, um gelten zu können, ist dies für die ihr zugrundeliegenden Forschungsschritte nicht erforderlich. Für den Weg zur Erkenntnis reicht meist eine kurze Schilderung als Beleg des wissenschaftlichen Vorgehens. Eine weitere Anreicherung um zusätzliche Materialien wie umfassende Forschungsdaten scheint dagegen nicht zuletzt angesichts der schon lange beklagten Publikationsflut (und damit Rezeptionskrise) kaum als Default-Modus gewünscht. Zudem ist auch so nicht jeder Datensatz zur Nachnutzung geeignet oder zur Feststellung des Werts der daraus gewonnen Erkenntnis notwendig. Schließlich stehen sehr häufig auch einfach persönlichkeits- und datenschutzrechtliche Aspekte als unverrückbare Hürden vor einer möglichen Datenpublikation.

(Offenes) Data-Sharing dürfte daher auch langfristig nur in bestimmten Forschungsbereichen relevant werden. In diesen jedoch ist eine umfassende Abdeckung fraglos erstrebenswert. Und auch bereits für diese keineswegs eindeutig bestimmten und überschaubaren Felder haben Infrastrukturforschung und Policy-Entwicklung noch viel Arbeit vor sich. Daher könnte es sogar förderlich sein, das Ideal einer vollumfänglichen Open-Data-Kultur zugunsten einer differenzierteren Sichtweise zu relativieren um anhand schärfer bestimmter Zielgruppen und -szenarien die passenden Anreize definieren zu können.

(Berlin, 05. April 2017)

Neu erschienen: LIBREAS #23: Forschungsdaten, Metadaten, noch mehr Daten. Forschungsdatenmanagement.

Posted in LIBREAS aktuell by libreas on 10. Oktober 2013

Kurz: Die neue Ausgabe der LIBREAS (www.libreas.eu) ist erschienen und wir sind einigermassen stolz auf sie und ihr neues Gesicht. Wir entlassen sie jetzt in die Welt.


Aber lieber länger: Man muss jetzt nicht wieder von lange währenden und endlich guten Dingen philosophieren, wenn man das Planungsdatum und das Ausgabedatum der aktuellen LIBREAS-Ausgabe vergleicht. Denn eigentlich ergeht es uns ja immer so. In diesem Fall jedoch macht es uns noch weniger aus als sonst. Denn einerseits trägt uns das Gefühl, dass wir eine Ausgabe zusammengetragen haben, die uns in ihrer Qualität sehr zufriedenstellt. Und andererseits haben wir sie und zugleich das Archiv das gesamte LIBREAS-Ausgabenarchiv in eine technologische Struktur umgebettet, die aus unserer Sicht sehr auf der Höhe der Zeit ist. Ein Beitrag dazu wird demnächst folgen. In jedem Fall sollten Anmutung, Navigation und (Nach-)Nutzung der Inhalte von LIBREAS so einfach sein, wie nie zuvor.

Wir werden in den nächsten Wochen sicher noch an der einen oder anderen Stelle nachjustieren. Rückmeldungen und Anmerkungen zur neuen Fassung des mittlerweile schon fast klassischen Modells LIBREAS sind sehr willkommen. Zugleich evaluieren wir natürlich den Sprung der Zeitschrift mit den üblichen altmetrischen Argusaugen und sind sehr zuversätzlich.

Es ist vermutlich generell nicht übertrieben, wenn man schreibt, dass die Redaktion mit dieser Ausgabe das Gefühl hat, als ginge es nun mit LIBREAS erst wirklich los.

In jedem Fall haben wir sehr viel Lust auf Zukunft. Wobei sich das Stichwort zum Verweis auf den aktuellen Call for Papers und die nächste Ausgabe wie von selbst eingestellt hat: Zukünfte. Wobei weniger die Zukünfte von LIBREAS im Zentrum stehen, als die der Bibliotheken und allem, was thematisch so darum herum schwirrt.

Nachstehend nun das Inhaltsverzeichnis. Wir wünschen viel Freude und / oder Anregung mit LIBREAS #23.

(red. / @libreas / 10.10.2013)

Coverbild LIBREAS #23

Redaktion LIBREAS Editorial #23: Forschungsdaten, Metadaten, noch mehr Daten. Forschungsdatenmanagement


Schwerpunkt: Daten. Metadaten. Noch mehr Daten. Forschungsdatenmanagement

Allgemein

Jakob Voß Was sind eigentlich Daten?
Christiane Laura Martin Wissenschaftliche Bibliotheken als Akteure im Forschungsdatenmanagement
René Schneider, Jasmin Hügi Motivationen für die Nutzung einer digitalen Forschungsinfrastruktur

Beispiele

Sven Vlaeminck, Gert G. Wagner, Joachim Wagner, Dietmar Harhoff, Olaf Siegert Replizierbare Forschung in den Wirtschaftswissenschaften erhöhen – eine Herausforderung für wissenschaftliche Infrastrukturdienstleister
Maxi Kindling, Elena Simukovic, Peter Schirmbacher Forschungsdatenmanagement an Hochschulen: Das Beispiel Humboldt-Universität zu Berlin
Tim Hasler, Wolfgang Peters-Kottig Vorschrift oder Thunfisch? – Zur Langzeitverfügbarkeit von Forschungsdaten
Patrick Sahle, Simone Kronenwett Jenseits der Daten: Überlegungen zu Datenzentren für die Geisteswissenschaften am Beispiel des Kölner „Data Center for the Humanities“
Jenny Delasalle Research Data Management at the University of Warwick: recent steps towards a joined-up approach at a UK university
Claudia Engelhardt Forschungsdatenmanagement in DFG-SFBs: Teilprojekte Informationsinfrastruktur (INF-Projekte)


Beiträge

Armin Talke Verwaiste und vergriffene Werke: Kommt das 20. Jahrhundert endlich in die Digitale Bibliothek?


Rezensionen

[Rezension:] Karsten Schuldt Leerstellen der Diskussion: eine kritische Besprechung der Abschlussberichte des RADIESCHEN-Projekts
[Rezension:] Petra Hauke Rezension zu: Catalogue 2.0. The future of the library catalogue.
[Rezension:] Ben Kaden Rezension zu: All This Can Happen (2012) und Living Archive (2013)


Freier Teil

Ben Kaden Ein neuer Gedenkort in Berlin: Dubček an der Staatsbibliothek

Querverweise zwischen Zeitschriftenaufsätzen und Forschungsdaten: rebi, ein R-Paket für Europe PMC

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 11. April 2013

Seit wenigen Tagen steht eine erste Version des R-Pakets rebi als Teil von rOpenSci zur Verfügung. rebi ermöglicht die Aggregation und Exploration der in Europe PubMed Central (Europe PMC) indexierten Veröffentlichungen und Forschungsdaten.

Zu diesem Zwecke fragt rebi den kürzlich veröffentlichten Europe PMC RESTful Web Service ab. Die API ergänzt das bereits seit längerem bestehende SOAP-Interface, das beispielsweise im Projekt OpenAIREplus die Basis für einen disziplinären Demonstrator bildete.

Ein Ergebnis des Demonstrators – die Erschließung und Sichtbarmachung von Querverweisen zwischen Publikationen und Forschungsdaten am European Bioinformatics Institute (EBI) – nutzt das Repository PUB – Publikationen an der Universität Bielefeld nach. Bis dato konnten rund 70.000 Querverweise zwischen EBI-Datenbanken wie dem European Nucleotide Archive (ENA) oder UniProt und 600 biowissenschaftlichen Veröffentlichungen automatisch identifiziert und auf Artikelebene eingebunden werden.

rebi war zunächst für die statistische Begleitung der EBI-Anreicherung in institutionelle Forschungsservices gedacht. Jedoch erlaubt das R-Paket weitere Dimensionen der Datenexploration, wie z.B die der Querweise auf Ebene eines Journals.

rebi

Die obige Abbildung zeigt die Verteilung der in Europe PMC indexierten Artikel der Zeitschrift PLOS Genetics nach Publikationsjahr. EBI-Services verweisen zu 2.226 Veröffentlichungen (Variable „Y“) von insgesamt 3.499 indexierten Beiträgen (63,61 %). Die Diskrepanz der Verteilung für das Jahr 2013 lässt sich mit dem Zeitfenster erklären, das die Datenspezialisten am EBI für ihre häufig auch intellektuelle Erschließung der Verweise nach der Journal-Veröffentlichung benötigen. Daher sollten entsprechenden Auswertungen und auch die Aggregation für eigene Bibliotheksanwendungen regelmäßig wiederholt werden.

Mit rebi lässt sich das obige Säulendiagramm mit fünf einfachen Funktionsaufrufen erstellen.

require(rebi)
#get metadata for PLOS Genomics by ISSN
plos.genetics <- searcheuropmc(query="ISSN:1553-7404")

#format year published to date object
plos.genetics$pubYear <-format(plos.genetics$pubYear, format="%Y")

#relevel according to frequency of occurrence Cross-Links to EBI databases
plos.genetics$hasDbCrossReferences <- factor (plos.genetics$hasDbCrossReferences, 
levels = c(rownames(data.frame(rev(sort(table(plos.genetics$hasDbCrossReferences)))))))

#plot
require(ggplot2)

p <- ggplot(plos.genetics, aes(pubYear, ..count.., fill = hasDbCrossReferences)) + 
geom_bar() + theme_bw() +
scale_fill_brewer("EBI\nCross-References",palette="Accent") + 
xlab("Year") + ylab("PLOS Genetics Articles") + 
opts(legend.key=theme_rect(fill="white",colour="white"))

#save plot
ggsave(plot = p, "rebi.png", h = 3.08, w = 7.2)

rebi soll kontinuierlich erweitert werden und enthält derzeit neben der allgemeinen Suchfunktion Aufrufe für die Gewinnung der bibliographischen Metadaten der referenzierten Veröffentlichungen und Zitationen sowie die Berechnung der Anzahl der EBI-Querverweise je Artikel. Weitere rebi-Funktionen können die Gewinnung der Nukleinsäuresequenzen etwa im FASTA-Format ebenso ermöglichen wie die Aggregation der vom EBI automatisch extrahierten Schlagwörter und Taxonomien.

Literatur

McEntyre J.R., Ananiadou S., Andrews S., Black W.J., Boulderstone R., Buttery P., Chaplin D., Chevuru S., Cobley N., Coleman L.-A., et al. UKPMC: a full text article resource for the life sciences. Nucleic Acids Res. 2011;39:D58–D65.PMC3013671

(Najko Jahn)

Call for Papers: Forschungsdaten, Metadaten, noch mehr Daten. Forschungsdatenmanagement

Posted in LIBREAS Call for Papers by libreas on 12. Dezember 2012

Call for Papers für die LIBREAS-Ausgabe #23
Thema:
Forschungs- und andere Daten sowie ihre Organisation und Rolle in Bibliothek und Wissenschaft
Einreichungsfrist: bis 31.05.2013 14.07.2013 19.08.2013
gewünscht sind: Beiträge, die Wechselwirkungen zwischen Wissenschaft, Daten und Bibliotheken reflektieren, annotieren, dekonstruieren und/oder analysieren
disziplinäre Einschränkungen: keine
Rückfragen: redaktion@libreas.eu

„Eine Forschung, die zunehmend durch die kooperative Tätigkeit weltweit vernetzter Communities und durch den Einsatz Computerbasierter Verfahren bestimmt ist, erfordert nun einmal die kontinuierliche und vor allem langfristige Verfügbarkeit von Publikationen und Forschungsdaten über das Internet. Nicht nur die Notwendigkeit, Forschungsergebnisse durch den Rückgriff auf die diesen Ergebnissen zugrunde liegenden Daten verifizieren zu können, sondern auch die produktive Nachnutzung von Forschungsdaten in anderen Kontexten setzt voraus, dass digital kodierte Information über Jahrzehnte hinweg authentisch verfügbar bleibt.“ (Matthias Kleiner. Vorwort. In: Heike Neuroth et al. (2012), S. 9)

„Die Basis einer gesunden Ordnung ist ein großer Papierkorb.“ (Kurt Tucholsky. In: Neue Leipziger Zeitung, 19.08.1930)

 

Wissenschaft produziert heute neben Erkenntnis vor allem immense Datenmengen. Die enorme Steigerung beruht in erster Linie auf der Entwicklung und Verfügbarkeit von Technologien zur Datenproduktion und -verarbeitung. leistungsstärkere Rechner und Messgeräte produzieren und vernetzen immer mehr Daten. Wo viele Daten sind, kommen fast naturgesetzlich immer noch mehr hinzu. Die Datenmengen, eines  Large Hadron Collider (LHC) in Genf sind derart umfangreich, dass sie nicht einmal mehr an einer zentralen Stelle gespeichert werden können, sondern auf das LHC Computing Grid verteilt werden müssen. Aber auch im Alltag entstehen immer mehr Daten „nebenher“, beim Surfen im Netz, beim Chatten, beim Taggen von Dateien usw. Nahezu jeder Klick erzeugt auch neue Daten.

Die Entwicklung führt zu umfassenden Änderungen der Wissenschaft, ihrer Methoden und besonders den Anforderungen an ihre Werkzeuge sowie an die Wissenschaftsinfrastrukturen. Datenintensive Forschung braucht angemessene Hilfsmittel. Physikerinnen und Physiker, die mit Daten aus LHC-Experimenten arbeiten wollen, müssen lernen, Daten aus dem Grid zusammensammeln und auszugeben. Sozialwissenschaftlerinnen und -wissenschaftler, die theoretische Modelle zum Zusammenhang von Hochschulsystem und Städteplanung über mehrere Staaten hinweg testen wollen, können dafür auf eine umfassende Datenlage zurückgreifen. Sie müssen aber diese kennen, finden und weiterverarbeiten können.

Angesichts dieser empirischen Wende könnte das Testen theoretischer Modelle bald der Vergangenheit angehören. Jim Gray formulierte die These, dass wir in die Zeit des vierten Forschungsparadigmas eintreten würden. (Hey, Tansley & Tolle, 2009) Die Forschungsdatenbestände würden zu groß werden, um überhaupt noch anders als mit explorativer Statistik, also einer Art Datenhermeneutik, auswertbar zu sein. Ob dies für alle Wissenschaften zutrifft, ist offen.

Folgerichtig wird die Bedeutung von langfristig und offen verfügbaren Forschungsdaten für den Forschungsprozess immer stärker betont. Man entwirft Systeme, die die Reputation einer Forscherin, eines Forschers an die erstellten Daten binden sollen. Diese Diskussion überdeckt eine andere Wahrheit: Immer noch sitzen die Theologinnen und Theologen an ihren Schreibtischen und produzieren nicht viel mehr Daten als in den Jahrhunderten zuvor. Sie benutzen aber möglicherweise zunehmend digital vorliegende Quellen. So geht es vielen Disziplinen: Einige, wie die Physik oder die Klimaforschung, erzeugen permanent riesige Datenmengen. Bei anderen ist vielleicht nicht das Wachstum der eigens produzierten Datenmengen überwältigend. Wohl aber die Zahl der durch die Digitalisierung direkt abrufbaren Datenbestände. Um diese ordentlich zu nutzen, sind adäquate Erschließungs- und Vermittlungsverfahren sowie Werkzeuge notwendig.

Wie soll Forschungsdatenmanagement funktionieren? (more…)