LIBREAS.Library Ideas

LIBREAS.Library Ideas LIBREAS.Dokumentation. Heute: Thesen des Rat für Informationsinfrastrukturen (RfII) zu den Voraussetzungen einer Nationalen Forschungsdateninfrastruktur (NFDI)

Posted in LIBREAS.Dokumente by Ben on 27. April 2017

von Ben Kaden (@bkaden)

Spricht man über die Möglichkeit und Notwendigkeit einer systematischen Organisation von digitalen Forschungsdaten (Forschungsdatenmanagement) sowie ihrem übergreifenden Nachweis und idealerweise auch ihre Verfügbarmachung per Publikation, sind vor allem drei Gruppen von Stakeholdern zu berücksichtigen. Die erste fasst in etwas die Forschungspolitik-, administration und -förderung. Die zweite besteht aus der Forschungsinfrastruktur, also Bibliotheken, Rechenzentren, Netzwerkanbietern etc. Beide Gruppen haben sich, verkürzt formuliert, weitgehend darauf verständigt, dass das Ziel einer offenen Wissenschaft (Open Science und Open Scholarship) erstrebenswert ist und man daraufhin arbeiten sollten, sie als Normalmodus zu etablieren. Und dazu zählt auch die möglichst weitreichende (=offene) Verfügbarkeit der Daten, die bei der Forschung entstehen. Die Hauptgründe dafür sind die Forschungstransparenz und die Nachnutzung.

Dass die Hauptakteure, nämlich die dritte Gruppe in Gestalt der Forschenden, die diese Daten produzieren, potentiell rezipieren, vielleicht bewerten und möglicherweise nachnutzen, noch nicht flächendeckend in diese Richtung streben, erweist sich bei diesem Streben als Herausforderung. Oder auch: Hürde. Theoretisch sind sie sogar oft mit im Boot. Praktisch jedoch scheuen sie jedoch einerseits den zusätzlichen Aufwand, wenn es an den tatsächlichen Schritt hin zu Forschungsdatenpublikationen geht. Oder sie finden, wie gleich noch einmal angedeutet wird sogar nachvollziehbar, Gründe, warum es in ihrem konkreten Fall jeweils nicht möglich ist, diesem Ziel zu folgen. (more…)

Warum die Publikation von Forschungsdaten nach wie vor ein begrenztes Phänomen bleibt.

Posted in LIBREAS.Referate by Ben on 5. April 2017

Eine Notiz im Anschluss an

Jens Klump: Data as Social Capital and the Gift Culture in Research. In: Data Science Journal. 16, p.14. DOI: http://doi.org/10.5334/dsj-2017-014

von Ben Kaden (@bkaden)

Wer sich mit dem Thema der Forschungsdatenpublikation befasst, kann die Lücke zwischen allgemeinen in Forschungsdaten-Policies verkündeten Anspruch an einen offenen Zugang zu diesen Daten und der Wissenschaftspraxis nicht übersehen: Trotz aller wohlbegründeten Argumente ist die Zahl der publizierten Datensätze sehr überschaubar. Andererseits ist das Konzept der Forschungsdatenpublikation nur dann wirklich nachhaltig und sinnvoll, wenn solche Veröffentlichungen nicht insular und aus dem Enthusiasmus einzelner Forschender heraus geschehen, sondern dort, wo sie sinnvoll sind, ein Eckstein wissenschaftlichen Austauschs bilden. Wissenschaft lebt von Systematizität. Wenn Forschungsdatensätze eher zufällig auf einem Repositorium landen, ist es sicher besser als keine Verfügbarkeit. Aber es ist eben nicht wissenschaftlich und ähnelt im Fall einer Nachnutzung eher dem glücklichen Zufallsfund im Archiv, während der Normalfall bleibt, dass man keine Daten für seine Forschungsfrage findet. Auch wenn es eigentlich welche gäbe.

Gemeinhin werden drei Gründe für Forschungsdatenpublikationen benannt: Forschungstransparenz, Nachnutzung und der Erwerb wissenschaftlicher Reputation. Abgesehen von ethisch besonders motivierten Publizierenden dürfte vor allem der Aspekt einer die Anrechenbarkeit von Forschungsdatenpublikationen als wissenschaftliches Kapital der Schlüssel zu einer weiteren Verbreitung sein. Insofern ist es unter anderem wichtig, Datenpublikationen so zitier- und verfügbar zu halten, wie es auch Aufsatzpublikationen sind. Die übergeordnete Sachlage ist aber selbstverständlich komplexer.

In einem aktuellen Aufsatz für das Data Science Journal geht nun Jens Klump der Frage nach, weshalb Data-Sharing-Policies bisher nur begrenztes Echo in den Fachkulturen und ihren Kommunikationspraxen finden. Er nähert sich der Frage wissenschaftssoziologisch und argumentiert nachvollziehbar, dass es nicht ausreicht, Forschungsdateninfrastrukturen aufzubauen. Vielmehr, so lässt sich ergänzen, sind diese eine Basisanforderung, um Data-Sharing-Praxen zu stimulieren. Entscheidend ist jedoch eigentlich, die Verfassung des sozialen Systems der Wissenschaft als eine „Reputation Economy“ zu verstehen und aus diesem Verständnis heraus passende Ansatzpunkte für Anreize zu setzen. Der einschlägigen Infrastrukturforschung bescheinigt Jens Klump dahingehend Defizite. Wenn also in der Reputationsökonomie der Wissenschaft die eigenen wissenschaftlichen Handlungsmöglichkeiten (z.B. über Fördermittel und Anstellungen) mittels kommunikationsbasierten Erwerb von Reputation und wissenschaftlichem Status gesichert und ausgebaut werden, dann sollte das Phänomen der Forschungsdatenpublikation folgerichtig in dieses System grundlegend integriert werden.

Interessant ist nun die durch den Übergang von einer vorwiegenden Individualwissenschaft zu einer Kollaborationswissenschaft (oft, aber nicht nur, in Gestalt von Großforschung) auftretende Verschiebung der Anforderungen. Im zweiten Fall bedarf es für eine Karriere mehr als Reputation – es gilt die Balance zwischen Reputationsgewinnen und Kollaborationsgewinnen zu finden. Man muss also in der kollaborativen Forschung nicht nur als Individuum wissenschaftlich hochklassig arbeiten, sondern zugleich an den richtigen Punkten ein geschickter Teamspieler sein.

Zwangsläufig betonen und belohnen, wie auch Jens Klump herausstellt, kollaborativ orientierte Fachkulturen das Teilen von Forschungsressourcen und also auch Forschungsdaten stärker als Kulturen, in denen der Schwerpunkt hauptsächlich auf  dem Reputationsgewinn des einzelnen Forschers liegt. Zieht man dies heran, erklärt sich auch das Spannungsverhältnis zwischen den sehr auf Kollaboration gerichteten Digital Humanities und den traditioneller ausgerichteten Geisteswissenschaften, bei denen sich Forschende häufig selbst als primär Werkschöpfende mit allen Ansprüchen an eine so genannte „Werkherrschaft“ sehen. Die aktuellen deutschen Urheberrechtsdebatten (Stichwort Publikationsfreiheit.de) könnten also maßgeblich von der Sorge um Reputationseinbußen getrieben werden. Zugleich stehen sie deutlich erkennbar den Ansprüchen kollaborationsorientierter Wissenschaft entgegen. Während die traditionellen Individualwissenschaften Erkenntnis primär zentriert auf den individuellen Forscher als Erkennenden (und idealweiser Ersterkennenden) gelesen und interpretiert haben, fokussieren, so eine natürlich etwas verkürzte Deutung, Kollaborationskulturen viel stärker den Forschungsgegenstand und das Erkenntnisziel als Fixpunkte. Sie behandeln die Forschenden zwar nicht als beliebig austauschbar, aber doch als stärker hinter die Forschungsziele zurücktretend. Ist das eigentliche Ziel nun idealerweise der Erkenntnisfortschritt selbst, so scheint es auch deutlich plausibler und vermittelbarer, dass zum Beispiel die Bereitstellung von Forschungsdaten für die Community im Sinne dieses Fortschritts stärker zu gewichten ist, als der individuelle Anspruch als Erheber dieser Daten auch eine umfassende Datenherrschaft ausüben zu können.

Individualwissenschaftliche Praxen knüpfen dagegen stärker die Originalität einer Erkenntnis an die konkrete forschende und erkennende Person als Urheber. Zu viel Transparenz oder gar die Bereitstellung der eigenen Datengrundlage (zum Beispiel in Form von Annotationen) für ähnlich motivierte Forschende (=Konkurrenten) wird zwangsläufig als erhebliche Preisgabe wissenschaftlichen Kapitals gesehen, aus dem das soziale Kapital gewonnen wird, mit man seine Karriere macht.

Einen Sonderfall stellt die Auftragsforschung dar, wenn sie das Ziel des Intellectual Property mit Teamforschung verbindet und zum Beispiel Patentierbarkeit des Erkenntnisproduktes anstrebt. Dann greifen ähnliche Zurückhaltungsmechanismen und eine Preisgabe u.a. der Datengrundlage oder auch der Verfahrensbeschreibung ist vor Sicherung des Patents und damit des rechtlich stabilisierten Verwertungsanspruchs unbedingt zu vermeiden.

Mit der Zunahme von Public-Private-Partnership-Projekten verkompliziert sich die Frage nach den Anreizen zum Teilen von Forschungsdaten demnach zusätzlich. Wissenschaft ist somit keinesfalls als isoliertes soziales System zu betrachten, auch wenn diese Sicht zunächst einmal hilft, um über die Idee einer idealtypischen Reputationsökonomie nach den passenden Interventionspunkten zugunsten einer stärkeren Öffnung wissenschaftlicher Arbeit zu suchen. Die Kommodifizierung der Erkenntnisproduktion verlagert den als für das wissenschaftliche Verhalten bestimmend definierten Peer Pressure in stärker rechtlich regulierte Bedingungen. Für denkbare Anreize zum Teilen von Forschungsdaten und -verfahren muss dies nicht schlecht sein, weil man auf rechtlichem Wege stärker auch verbindliche Mandatierungen anstreben kann – so wie die Nicht-Veröffentlichung bereits jetzt bei der Auftragsforschung klar mandatiert wird.

Abgesehen davon ist es zweifellos nach wie vor sinnvoll, auch die impliziten Normen des sozialen Systems Wissenschaft zu adressieren. „[P]ublishing data must add to reputation“ (vgl. Klump, S. 5) ist eine Basisformel für das Schaffen von Anreizen für die Forschungsdatenpublikation, die jede/r in diesem Bereich Aktive berücksichtigen sollte. Denn ohne die Aussicht auf einen potentiellen Reputationsgewinn wird es schwer, den erheblichen Mehraufwand einer soliden Datenpublikation zu vermitteln. Wissenschaftsethische Argumente werden selbstverständlich gern gehört und Ideen einer Open Scholarship stoßen selten auf Widerspruch. Ebenso selten haben sie freilich eine Wirkung, die über ein „Ja, man müsste..“ hinausreicht. Der aktuell wirksamste Weg zur Anregung von Datenpublikationen scheint die zunehmende Einforderung von Begleitdaten durch (High-Impact-)Journals, die einen gewissen Zwang mit einem Reputationsversprechen verknüpft. (vgl. zu solchen Supplementary Materials auch diesen Artikel im eDissPlus-Blog)

Dass Datenzitation (und Zitationsindices) und damit einhergehend Reputationsgewinne jedoch vergleichbar mit dem Publizieren von formalen Wissenschaftspublikationen wie Aufsätzen und auch Monografien größeren Einfluss haben werden, scheint trotz allem aktuell wenig wahrscheinlich. Während eine wissenschaftliche Erkenntnis selbst publiziert werden muss, um gelten zu können, ist dies für die ihr zugrundeliegenden Forschungsschritte nicht erforderlich. Für den Weg zur Erkenntnis reicht meist eine kurze Schilderung als Beleg des wissenschaftlichen Vorgehens. Eine weitere Anreicherung um zusätzliche Materialien wie umfassende Forschungsdaten scheint dagegen nicht zuletzt angesichts der schon lange beklagten Publikationsflut (und damit Rezeptionskrise) kaum als Default-Modus gewünscht. Zudem ist auch so nicht jeder Datensatz zur Nachnutzung geeignet oder zur Feststellung des Werts der daraus gewonnen Erkenntnis notwendig. Schließlich stehen sehr häufig auch einfach persönlichkeits- und datenschutzrechtliche Aspekte als unverrückbare Hürden vor einer möglichen Datenpublikation.

(Offenes) Data-Sharing dürfte daher auch langfristig nur in bestimmten Forschungsbereichen relevant werden. In diesen jedoch ist eine umfassende Abdeckung fraglos erstrebenswert. Und auch bereits für diese keineswegs eindeutig bestimmten und überschaubaren Felder haben Infrastrukturforschung und Policy-Entwicklung noch viel Arbeit vor sich. Daher könnte es sogar förderlich sein, das Ideal einer vollumfänglichen Open-Data-Kultur zugunsten einer differenzierteren Sichtweise zu relativieren um anhand schärfer bestimmter Zielgruppen und -szenarien die passenden Anreize definieren zu können.

(Berlin, 05. April 2017)

Neu erschienen: LIBREAS #23: Forschungsdaten, Metadaten, noch mehr Daten. Forschungsdatenmanagement.

Posted in LIBREAS aktuell by libreas on 10. Oktober 2013

Kurz: Die neue Ausgabe der LIBREAS (www.libreas.eu) ist erschienen und wir sind einigermassen stolz auf sie und ihr neues Gesicht. Wir entlassen sie jetzt in die Welt.


Aber lieber länger: Man muss jetzt nicht wieder von lange währenden und endlich guten Dingen philosophieren, wenn man das Planungsdatum und das Ausgabedatum der aktuellen LIBREAS-Ausgabe vergleicht. Denn eigentlich ergeht es uns ja immer so. In diesem Fall jedoch macht es uns noch weniger aus als sonst. Denn einerseits trägt uns das Gefühl, dass wir eine Ausgabe zusammengetragen haben, die uns in ihrer Qualität sehr zufriedenstellt. Und andererseits haben wir sie und zugleich das Archiv das gesamte LIBREAS-Ausgabenarchiv in eine technologische Struktur umgebettet, die aus unserer Sicht sehr auf der Höhe der Zeit ist. Ein Beitrag dazu wird demnächst folgen. In jedem Fall sollten Anmutung, Navigation und (Nach-)Nutzung der Inhalte von LIBREAS so einfach sein, wie nie zuvor.

Wir werden in den nächsten Wochen sicher noch an der einen oder anderen Stelle nachjustieren. Rückmeldungen und Anmerkungen zur neuen Fassung des mittlerweile schon fast klassischen Modells LIBREAS sind sehr willkommen. Zugleich evaluieren wir natürlich den Sprung der Zeitschrift mit den üblichen altmetrischen Argusaugen und sind sehr zuversätzlich.

Es ist vermutlich generell nicht übertrieben, wenn man schreibt, dass die Redaktion mit dieser Ausgabe das Gefühl hat, als ginge es nun mit LIBREAS erst wirklich los.

In jedem Fall haben wir sehr viel Lust auf Zukunft. Wobei sich das Stichwort zum Verweis auf den aktuellen Call for Papers und die nächste Ausgabe wie von selbst eingestellt hat: Zukünfte. Wobei weniger die Zukünfte von LIBREAS im Zentrum stehen, als die der Bibliotheken und allem, was thematisch so darum herum schwirrt.

Nachstehend nun das Inhaltsverzeichnis. Wir wünschen viel Freude und / oder Anregung mit LIBREAS #23.

(red. / @libreas / 10.10.2013)

Coverbild LIBREAS #23

Redaktion LIBREAS Editorial #23: Forschungsdaten, Metadaten, noch mehr Daten. Forschungsdatenmanagement


Schwerpunkt: Daten. Metadaten. Noch mehr Daten. Forschungsdatenmanagement

Allgemein

Jakob Voß Was sind eigentlich Daten?
Christiane Laura Martin Wissenschaftliche Bibliotheken als Akteure im Forschungsdatenmanagement
René Schneider, Jasmin Hügi Motivationen für die Nutzung einer digitalen Forschungsinfrastruktur

Beispiele

Sven Vlaeminck, Gert G. Wagner, Joachim Wagner, Dietmar Harhoff, Olaf Siegert Replizierbare Forschung in den Wirtschaftswissenschaften erhöhen – eine Herausforderung für wissenschaftliche Infrastrukturdienstleister
Maxi Kindling, Elena Simukovic, Peter Schirmbacher Forschungsdatenmanagement an Hochschulen: Das Beispiel Humboldt-Universität zu Berlin
Tim Hasler, Wolfgang Peters-Kottig Vorschrift oder Thunfisch? – Zur Langzeitverfügbarkeit von Forschungsdaten
Patrick Sahle, Simone Kronenwett Jenseits der Daten: Überlegungen zu Datenzentren für die Geisteswissenschaften am Beispiel des Kölner „Data Center for the Humanities“
Jenny Delasalle Research Data Management at the University of Warwick: recent steps towards a joined-up approach at a UK university
Claudia Engelhardt Forschungsdatenmanagement in DFG-SFBs: Teilprojekte Informationsinfrastruktur (INF-Projekte)


Beiträge

Armin Talke Verwaiste und vergriffene Werke: Kommt das 20. Jahrhundert endlich in die Digitale Bibliothek?


Rezensionen

[Rezension:] Karsten Schuldt Leerstellen der Diskussion: eine kritische Besprechung der Abschlussberichte des RADIESCHEN-Projekts
[Rezension:] Petra Hauke Rezension zu: Catalogue 2.0. The future of the library catalogue.
[Rezension:] Ben Kaden Rezension zu: All This Can Happen (2012) und Living Archive (2013)


Freier Teil

Ben Kaden Ein neuer Gedenkort in Berlin: Dubček an der Staatsbibliothek

Querverweise zwischen Zeitschriftenaufsätzen und Forschungsdaten: rebi, ein R-Paket für Europe PMC

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 11. April 2013

Seit wenigen Tagen steht eine erste Version des R-Pakets rebi als Teil von rOpenSci zur Verfügung. rebi ermöglicht die Aggregation und Exploration der in Europe PubMed Central (Europe PMC) indexierten Veröffentlichungen und Forschungsdaten.

Zu diesem Zwecke fragt rebi den kürzlich veröffentlichten Europe PMC RESTful Web Service ab. Die API ergänzt das bereits seit längerem bestehende SOAP-Interface, das beispielsweise im Projekt OpenAIREplus die Basis für einen disziplinären Demonstrator bildete.

Ein Ergebnis des Demonstrators – die Erschließung und Sichtbarmachung von Querverweisen zwischen Publikationen und Forschungsdaten am European Bioinformatics Institute (EBI) – nutzt das Repository PUB – Publikationen an der Universität Bielefeld nach. Bis dato konnten rund 70.000 Querverweise zwischen EBI-Datenbanken wie dem European Nucleotide Archive (ENA) oder UniProt und 600 biowissenschaftlichen Veröffentlichungen automatisch identifiziert und auf Artikelebene eingebunden werden.

rebi war zunächst für die statistische Begleitung der EBI-Anreicherung in institutionelle Forschungsservices gedacht. Jedoch erlaubt das R-Paket weitere Dimensionen der Datenexploration, wie z.B die der Querweise auf Ebene eines Journals.

rebi

Die obige Abbildung zeigt die Verteilung der in Europe PMC indexierten Artikel der Zeitschrift PLOS Genetics nach Publikationsjahr. EBI-Services verweisen zu 2.226 Veröffentlichungen (Variable „Y“) von insgesamt 3.499 indexierten Beiträgen (63,61 %). Die Diskrepanz der Verteilung für das Jahr 2013 lässt sich mit dem Zeitfenster erklären, das die Datenspezialisten am EBI für ihre häufig auch intellektuelle Erschließung der Verweise nach der Journal-Veröffentlichung benötigen. Daher sollten entsprechenden Auswertungen und auch die Aggregation für eigene Bibliotheksanwendungen regelmäßig wiederholt werden.

Mit rebi lässt sich das obige Säulendiagramm mit fünf einfachen Funktionsaufrufen erstellen.

require(rebi)
#get metadata for PLOS Genomics by ISSN
plos.genetics <- searcheuropmc(query="ISSN:1553-7404")

#format year published to date object
plos.genetics$pubYear <-format(plos.genetics$pubYear, format="%Y")

#relevel according to frequency of occurrence Cross-Links to EBI databases
plos.genetics$hasDbCrossReferences <- factor (plos.genetics$hasDbCrossReferences, 
levels = c(rownames(data.frame(rev(sort(table(plos.genetics$hasDbCrossReferences)))))))

#plot
require(ggplot2)

p <- ggplot(plos.genetics, aes(pubYear, ..count.., fill = hasDbCrossReferences)) + 
geom_bar() + theme_bw() +
scale_fill_brewer("EBI\nCross-References",palette="Accent") + 
xlab("Year") + ylab("PLOS Genetics Articles") + 
opts(legend.key=theme_rect(fill="white",colour="white"))

#save plot
ggsave(plot = p, "rebi.png", h = 3.08, w = 7.2)

rebi soll kontinuierlich erweitert werden und enthält derzeit neben der allgemeinen Suchfunktion Aufrufe für die Gewinnung der bibliographischen Metadaten der referenzierten Veröffentlichungen und Zitationen sowie die Berechnung der Anzahl der EBI-Querverweise je Artikel. Weitere rebi-Funktionen können die Gewinnung der Nukleinsäuresequenzen etwa im FASTA-Format ebenso ermöglichen wie die Aggregation der vom EBI automatisch extrahierten Schlagwörter und Taxonomien.

Literatur

McEntyre J.R., Ananiadou S., Andrews S., Black W.J., Boulderstone R., Buttery P., Chaplin D., Chevuru S., Cobley N., Coleman L.-A., et al. UKPMC: a full text article resource for the life sciences. Nucleic Acids Res. 2011;39:D58–D65.PMC3013671

(Najko Jahn)

Call for Papers: Forschungsdaten, Metadaten, noch mehr Daten. Forschungsdatenmanagement

Posted in LIBREAS Call for Papers by libreas on 12. Dezember 2012

Call for Papers für die LIBREAS-Ausgabe #23
Thema:
Forschungs- und andere Daten sowie ihre Organisation und Rolle in Bibliothek und Wissenschaft
Einreichungsfrist: bis 31.05.2013 14.07.2013 19.08.2013
gewünscht sind: Beiträge, die Wechselwirkungen zwischen Wissenschaft, Daten und Bibliotheken reflektieren, annotieren, dekonstruieren und/oder analysieren
disziplinäre Einschränkungen: keine
Rückfragen: redaktion@libreas.eu

„Eine Forschung, die zunehmend durch die kooperative Tätigkeit weltweit vernetzter Communities und durch den Einsatz Computerbasierter Verfahren bestimmt ist, erfordert nun einmal die kontinuierliche und vor allem langfristige Verfügbarkeit von Publikationen und Forschungsdaten über das Internet. Nicht nur die Notwendigkeit, Forschungsergebnisse durch den Rückgriff auf die diesen Ergebnissen zugrunde liegenden Daten verifizieren zu können, sondern auch die produktive Nachnutzung von Forschungsdaten in anderen Kontexten setzt voraus, dass digital kodierte Information über Jahrzehnte hinweg authentisch verfügbar bleibt.“ (Matthias Kleiner. Vorwort. In: Heike Neuroth et al. (2012), S. 9)

„Die Basis einer gesunden Ordnung ist ein großer Papierkorb.“ (Kurt Tucholsky. In: Neue Leipziger Zeitung, 19.08.1930)

 

Wissenschaft produziert heute neben Erkenntnis vor allem immense Datenmengen. Die enorme Steigerung beruht in erster Linie auf der Entwicklung und Verfügbarkeit von Technologien zur Datenproduktion und -verarbeitung. leistungsstärkere Rechner und Messgeräte produzieren und vernetzen immer mehr Daten. Wo viele Daten sind, kommen fast naturgesetzlich immer noch mehr hinzu. Die Datenmengen, eines  Large Hadron Collider (LHC) in Genf sind derart umfangreich, dass sie nicht einmal mehr an einer zentralen Stelle gespeichert werden können, sondern auf das LHC Computing Grid verteilt werden müssen. Aber auch im Alltag entstehen immer mehr Daten „nebenher“, beim Surfen im Netz, beim Chatten, beim Taggen von Dateien usw. Nahezu jeder Klick erzeugt auch neue Daten.

Die Entwicklung führt zu umfassenden Änderungen der Wissenschaft, ihrer Methoden und besonders den Anforderungen an ihre Werkzeuge sowie an die Wissenschaftsinfrastrukturen. Datenintensive Forschung braucht angemessene Hilfsmittel. Physikerinnen und Physiker, die mit Daten aus LHC-Experimenten arbeiten wollen, müssen lernen, Daten aus dem Grid zusammensammeln und auszugeben. Sozialwissenschaftlerinnen und -wissenschaftler, die theoretische Modelle zum Zusammenhang von Hochschulsystem und Städteplanung über mehrere Staaten hinweg testen wollen, können dafür auf eine umfassende Datenlage zurückgreifen. Sie müssen aber diese kennen, finden und weiterverarbeiten können.

Angesichts dieser empirischen Wende könnte das Testen theoretischer Modelle bald der Vergangenheit angehören. Jim Gray formulierte die These, dass wir in die Zeit des vierten Forschungsparadigmas eintreten würden. (Hey, Tansley & Tolle, 2009) Die Forschungsdatenbestände würden zu groß werden, um überhaupt noch anders als mit explorativer Statistik, also einer Art Datenhermeneutik, auswertbar zu sein. Ob dies für alle Wissenschaften zutrifft, ist offen.

Folgerichtig wird die Bedeutung von langfristig und offen verfügbaren Forschungsdaten für den Forschungsprozess immer stärker betont. Man entwirft Systeme, die die Reputation einer Forscherin, eines Forschers an die erstellten Daten binden sollen. Diese Diskussion überdeckt eine andere Wahrheit: Immer noch sitzen die Theologinnen und Theologen an ihren Schreibtischen und produzieren nicht viel mehr Daten als in den Jahrhunderten zuvor. Sie benutzen aber möglicherweise zunehmend digital vorliegende Quellen. So geht es vielen Disziplinen: Einige, wie die Physik oder die Klimaforschung, erzeugen permanent riesige Datenmengen. Bei anderen ist vielleicht nicht das Wachstum der eigens produzierten Datenmengen überwältigend. Wohl aber die Zahl der durch die Digitalisierung direkt abrufbaren Datenbestände. Um diese ordentlich zu nutzen, sind adäquate Erschließungs- und Vermittlungsverfahren sowie Werkzeuge notwendig.

Wie soll Forschungsdatenmanagement funktionieren? (more…)