LIBREAS.Library Ideas

Predicting the growth of PLoS ONE

Posted in LIBREAS.Projektberichte, LIBREAS.Visualisierung by libreas on 25. Juli 2012

Najko Jahn

Abstract: This first attempt calculates the annual growth of PLoS ONE and applies a seasonal trend analysis on these numbers. Between 2007-2011, 28,898 contributions were published in PLoS ONE, resulting in an annual growth rate of 62.17% for this period. Holt-Winters filtering for seasonal trend analysis predicts 18,284 published PLoS ONE contributions for 2012, and 31,978 for 2013 (compared to 13,797 in 2011). The findings raise the question about the duration of exponential growth of PLoS One publication volume, the transition of scholarly publication models, and, furthermore, the future of institutional Open Access publication funds.

Introduction

In recent posts [1], Martin Fenner presents approaches to visualise the performance of contributions published in Public Library of Science (PLoS) journals. Two APIs provided by PLoS were taken as the data source for these exploratory visualisations; one searches the PLoS domain for particular contributions, the other obtains Article Level Metrics (ALM) for each PLoS contribution. The latter is feeding into the ongoing work on Altmetrics (see eg Priem et al arXiv:1203.4745).

Collected in the work-in-progress plosOpenR GitHub repository, a joint collaboration of members from PLoS Article Level Metrics project, Bielefeld University Library and OpenAIRE was initiated.Our incentives for this work is to further enhance the existing R package rplos provided by rOpenSci. It shall allow crosswalks based on common funding information between data coming from the PLoS Journal server, including its collected metrics, and data on documents stored in institutional repositories. In a first step, this will be worked out as part of the FP7 funded OpenAIRE project which sets out to build an Open Access Infrastructure for European research.

In this post, I propose how to a) detect the annual growth rate of PLoS ONE contributions  and b) try to forecast the further growth by applying Holt-Winters smoothing which is a time series analysis method to detect seasonal trends originating from economics [2].

Applying time series analysis on PLoS One is particularly interesting for at least two reasons: Firstly, PLoS ONE publishes each contribution right after acceptance. This forms a publishing model that differs mostly from print journals where accepted submissions are commonly published in issues. Secondly, its multi-disciplinary coverage distinguishes PLoS ONE from most other academic journals.

Methods

To act in accordance with the PLoS Search API Terms of Conditions, thereby avoiding API overload, I downloaded the latest dump of  47,430 PLoS contributions from April (available here). After table cleaning in Open Office, the resulting csv file is loaded into the R working space. In the following, I summarized the data by Journal name and publication date.

require(plyr)

my.plos <- read.csv("plosalm.csv",header=T,sep=",")

tt <- ddply(my.plos,.(Publication.Date,Journal), nrow)
# format may differ according to pre-processing routines in OO
date <- strptime(tt$Publication.Date,format="%d.%m.%Y")
year <- date$year + 1900

my.data <- cbind(tt,date, year)

After this step, a summary of publications frequencies by each year and by PLoS journal can be obtained and exported as html table (see results, Table 1).

#table
my.tab <- as.data.frame(tapply(my.data$V1, my.data[,c("Journal","year")],sum))

sum.journal <- rowSums(my.tab, na.rm=T)
my.tab <- cbind(my.tab,sum.journal)

sum.year <- colSums(my.tab, na.rm=T)
my.tab <- rbind(my.tab,sum.year)

#export as html table
require("xtable")
my.tab.x <- xtable(my.tab)
digits(my.tab.x) <- 0
print(my.tab.x, type="html", file="summaryPLoS.html")

With regard to the so gathered annual number of contributions, the Compound Annual Growth rate (CAGR) can be obtained. CAGR is used in economics to measure a year-over-year growth of an investment. In our case, we calculate CAGR for the 5 years period from 2007-2011 to describe the growth of PLoS ONE contributions.

In order to predict the future growth of PLoS ONE contributions, the Holt-Winters was applied on the obtained data as this method is sensitive to seasonal trends (see results, Figure 1). In another blog post it is described how to apply Holt-Winters in R. In a first step, the subset the table for PLoS ONE was built. Afterwards, I calculate the number of monthly contributions. The zoo package provides the tools for achieving this task.

require(zoo)
#plos one
my.plos <- subset(my.data, Journal == "PLoS ONE")

#as zoo object to monthly summary
z <- zoo(my.plos$V1, my.plos$date)

t.z <- aggregate(z, as.yearmon, sum)
#time series object
ts.q <- ts (t.z, start=c(2006,12), frequency = 12)

A time series object is created for the period beginning Dec 2006, where the first PLoS ONE contributions were published, until the end of March 2012. This forms the basis for calculating both the Holt-Winters distribution and the forecast of PLoS ONE growth until end of Dec 2013 with a confidence level of 0.95.

#Holt-Winter Distribution
ts.holt <- HoltWinters(ts.q)

forecast <- predict(ts.holt, n.ahead = 21, prediction.interval = T, level = 0.95)

plot(ts.holt,forecast, frame.plot=F, xlim=c(2007,2014), ylim=c(0,4500),
     main="Holt-Winters filtering PLoS ONE contributions")

Results

The PLoS contributions by journal and year show a moderate growth in most journals but a strong growth in PLoS One (see Table 1).

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012(Mar30)
PLoS Biology 98 456 431 423 321 327 264 304 276 65 2965
PLoS Clinical Trials 40 28 68
PLoS Computational Biology 72 168 251 287 376 414 418 121 2107
PLoS Genetics 77 208 230 352 473 471 565 184 2560
PLoS Medicine 68 434 487 346 250 199 193 206 45 2228
PLoS Neglected Tropical Diseases 42 179 224 350 445 126 1366
PLoS ONE 137 1230 2716 4405 6750 13797 4747 33782
PLoS Pathogens 41 123 198 286 459 534 556 157 2354
98 524 1055 1586 2646 4397 6400 9016 16263 5445 47430
Table 1: PLoS contributions by journal and year

On the basis of these data, a Compound Annual Growth Rate for PLoS ONE can be calculated for the 5 years period from 2007 to 2011. As a result, PLoS ONE’s annual growth rate is calculated as being 62.17 %.

Applying the Holt-Winters method, a plot can be generated, which gives first insights into the distribution (see Figure 1). The black lines highlight the observed contributions per month until the end of March 2012. The red line presents the fitted Holt-Winters values, starting in Dec 2007 until end of 2013. The blue lines highlight the upper and lower confidence intervals. The vertical line borders show observed and predicted values.

The exponential smoothing predicts the monthly observations well. However, note the sharp decline between December 2011 and January 2012. Predicting values for 2012 and 2013, following this approach, PLoS ONE will publish 18,284 contributions in 2012 (confidence interval between 15420 – 21149) and 31,978 (confidence interval between 22679 – 41279) contributions are predicted for 2013.

Discussion

If my attempt is sound, and I really do appreciate any critical comments, then the obtained growth rates will have consequences on the publishing landscape. No where else, such extreme growth rates of the general scientific literature were never reported before [3]. It also raises the question about the share of articles that do not receive any single citation. Known as the scientometric phenomena of “uncitedness”, this may be tackled by future analysis of PLoS ALM data. On a side note, the analysis reveals the seasonal decline between December 2011 and January 2012. This might, prima facie, resemble biases in the submission and selection processes in other journals [4]. This would also require further examination.

In conclusion, if these growths rates can exclusively be reported for PLoS ONE, the implications for the publishing landscape could be strong. Swift, cross-disciplinary publishing platforms could pressure the market leadership of the high impact subject-specific journals. Since PLoS ONE requires author publication fees for most of its contributions, institutional services and likewise funders covering these fees may have to consider whether this growth affects their funding activities to cover author publication fees. At least as part of our local Open Access Publication Funds of Bielefeld University activities we’ve been experiencing the growing importance in the last years, too.

The intial R source code can be found at plosOpenR GitHub repository: https://github.com/articlemetrics/plosOpenR.

I wish to acknowledge helpful comments and suggestions by Wolfram Horstmann.

Notes

[1]Example Visualizations using the PLoS Search and ALM APIs; What users do with PLoS ONE papers

[2] C. C. Holt (1957) Forecasting trends and seasonals by exponentially weighted moving averages, ONR Research Memorandum, Carnegie Institute of Technology 52. P. R. Winters (1960) Forecasting sales by exponentially weighted moving averages, Management Science 6, 324–342. Useful Introduction: P. Goodwin (2010) The Holt-Winters Approach to Exponential Smoothing: 50 Years Old and Going Strong. Forecast Spring 2010.

[3] P. Weingart (2003) Wissenschaftssoziologie, Bielefeld: transcript, pp. 35 -39.

[4] L. Bormann & H.D. Daniel (2010) Seasonal bias in editorial decisions? A study using data from chemistry, Learned Publishing, 24, 325-328.

Advertisements

It’s the frei<tag> 2012-Countdown (22): Kurt Drawert und der entrissene Text

Posted in LIBREAS aktuell, LIBREAS.Feuilleton by libreas on 25. Juli 2012

Ben Kaden

zu Kurt Drawert: Der entrissene Text. In: Neue Zürcher Zeitung, Nr. 168, 21.07.2012, S.21 (bislang nicht online)

„Das bleibt nun so: ein Leben
mit hübschen Maschinen,
fortschrittlich, ohne Geheimnis
am Grunde der Tasse
und nur mit Zeit zu bezahlen. […]“
Kurt Drawert: Das bleibt nun so. (1993)
(in: Kurt Drawert (1994): Fraktur. Lyrik Prosa Essay.
Leipzig: Reclam,  S. 65)

Diese Tage zeigen, dass Berlin noch so etwas wie Sommer in seinem stadtmeteorologischen Repertoire hat und schon wird es eng auf den Straßen. Am Sonntagabend erwies es sich beispielsweise als unmöglich, die Monbijou-Brücke zu queren. Den Anlass des mit Menschen (und zwei, drei Hunden) verkorkten Übergangs bildete ein ganz klassisches Quartett (Violine, Viola, Violoncello, Klavier), welches Joaquin Turinas Klavierquartett in a-moll (op. 67) aus der musikalischen Kammer auf das offene Trottoir holte. Die Menge badete sichtlich in fast andalusisch romantischer Stimmung durch dieses milde Serenadenmeer und als die Milde schließlich in Kühle umschlug, schlurfte man halt weiter, um sich bei den 12 Aposteln eine der mindestens so überbewerten  wie überteuerten Pizzen servieren zulassen. Und dem Hund einen Napf frisches Leitungswasser.

Dort hätte man dann die Ausgabe der Neuen Zürcher Zeitung vom Samstag bis zur Seite 21 (Literatur und Kunst) aufblättern können, den dortigen Ganzseiter überfliegen und sich den Rest der Nacht mit der Frage beschäftigen können, ob diese Kombination von Piano, Piazza und Pizza für Kurt Drawert noch zulässig gewesen wäre. Denn in gewisser Weise scheint sich der Schriftsteller wenig behaglich zu fühlen, wenn es um die Rekontextualisierung von Werken geht:

„Es ist, wie einen Pianisten der Philarmonie auf den Markplatz zu zerren: Was er immer er spielt, es klingt nach Bockwurst und Bier.“

Was es ist, hat in diesem Fall wenig mit Liebe oder Musik oder gar der Liebe zur Musik zu tun. Sondern es ist die Abbildung literarischer Texte im Internet, die von Kurt Drawert in einem grotesk unangemessenen (dem Thema, der Entwicklung, der Zeitung und vermutlich sich selbst) Artikel in einer Weise attackiert, dass einem Uwe Jochum im Vergleich beinahe als Digital Native erscheint:

„Dieser Einbruch der site in unsere Seite verschiebt alle Systeme und Referenzen der Texte ganz unabänderlich. Gerade einmal ein paar Jahrhunderte hatten wir Zeit, uns an den Buchdruck zu gewöhnen, als eine Setzung, die ja auch so etwas wie teleologische Geborgenheit liefert, metaphysische Verbindlichkeit im Status ihrer stillen, dauernden Präsenz, schon flimmert das alles vor unseren Augen wieder weg und schickt uns ins All.“

Abgesehen von dem etwas unglücklich überdeterminierten Pleonasmus „ganz unabänderlich“ und dem dezenten Gast aus Calembour (site und Seite. Aber warum nicht Pagina und page?) wirkt die Klage etwas ungewöhnlich in ihrer Bewertung der historische Zeitläufte. „Gerade mal ein paar Jahrhunderte“ geht vielleicht Geologen leicht über die Lippen. (Die sich dann vielleicht auch für den von Kurt Drawert zum E-Book-Pendant degradierten Kieselstein – der ja ebenfalls „klein ist und in die Handtasche passt“ –  erwärmen würden). Für eine Medienform ist so ein Mehrgenerationenzeitraum dagegen durchaus erheblich und natürlich erlebte auch die Seite als Träger und ihre Beschreibung zwischenzeitlich zahllose Umbrüche.

Ohne Zweifel stehen Bildschirm- und Hypertext für etwas anderes als der gedruckte Text auf dem Papier. Und selbstredend gilt das auch und womöglich vorrangig in rezeptionsästhetischer Hinsicht. Und in jedem Fall sollten wir darüber kritisch diskutieren. Aber bitte mit Argumenten und nicht mit der Sahne einer „permanente[n] Okkupation aller Sinne durch das Internet“. Die hat nicht einmal mehr Schlag und nur geschmacklich Stich.

Nun humpelt der gesamte, nicht sonderlich überlegene Aufsatz, der sich um die Behauptung aufplustert, die Literatur stürbe (ziemlich sicher) weg, weil im Web „alle Instanzen, die zur Schrift überhaupt noch berufen sein könnten“ abgeschafft würden und die „virtuelle Maschine“ geradewegs alles, was sie zu greifen bekommt, aufsaugt, um es in den Orkus zu schleudern, schon deswegen selbst am Rande der Haltlosigkeit, weil er auf diese stumpfsinnige Prämisse einer unvermeidlich eindimensionalen (nämlich Bildschirm gefassten) Lebenswirklichkeit setzt. Derartiges steht uns erwartungsgemäß nicht ins Haus. Das Web ist nachweislich kein Über-All. Und teleologische Geborgenheit ist nach 1945 und den diversen Runden auf der Schlittschuhbahn der Postmoderne in Literatur und Lebenspraxis, die jeder Intellektuelle heute hinter sich hat, ohnehin eher ein naives Genrebild. Nicht, dass ich etwas dagegen hätte. Aber es bleibt notwendig ohne tieferen Bezug und in den Grenzen seines Rahmens.

Auch die fantasielose Reduktion der Auseinandersetzung mit dem Text auf ein stilles Lesekammerideal verfehlt all diejenigen, die ohne Probleme ihren David Foster Wallace oder Stefan Zweig (oder Kurt Drawert) im distraktionsreichen Umfeld der Linie 1 auf dem Weg zur Arbeit und zurück genießen. Dabei ließe sich bereits die moderne Arbeitswelt mit den ewigen Pendlerrouten selbst als Akt einer„technizitären Entleerung“ kritisieren.

Man kann die Kritik an Kurt Drawerts Essay abkürzen: Jemand, der mit Pennäler-Stolz verkündet, er hätte noch nie ein „todschickes E-Book“ in den Händen gehabt um nachzuschieben: „Es nimmt dem Lesen jede Erotik und ist so kalt wie ein Schlachthof im Winter“, muss sich bedauerlicherweise und bei allem Respekt den Vorwurf gefallen lassen, dass er einfach über etwas poltert, wovon er keine Ahnung hat. Dass das mehr Getippte als Geschriebene auf einer Seite fest und Kaffeehaus konsumierbar gedruckt vorliegt, verleiht ihm dabei keine besondere Autorität. Aber es lässt ihn ebenso wenig gleich nach Käsekuchen und Caffè americano klingen. Sondern einfach nur nach verzweifeltem Rudern im falschen Kanal.

Der entrissene Text / Kritik

Der entrissene Text: Er hielt diesen Schatten für einen anderen und schimpfte einen, na ja, deutschen Monolog. Und überhaupt das nicht mehr, diesen Luftsprung von gestern und sein lautloses Ende. Das keines war. Denn für einen sensiblen Menschen bleibt das Display nur die Rückseite der Herrlichkeit, die allerdings einen Durchgang zu einem Spiegelland nicht unähnlich einen neuen Blick auf das Himmlische wie auf das Abyssale der Kulturexistenz des Menschen eröffnet. Wie erweitern wir uns? sollte die Frage sein. Und nicht die ängstliche Überlegung, inwiefern ein Nutzer/User einem dressierten Nager entspricht.

Aus der semiotischen Perspektive – und Kurt Drawert spielt ja, wenn auch nicht sehr belangvoll, auf Roland Barthes an – ist die kulturelle Lebensumwelt des Menschen seit je ein hypertextuelles Ereignis. Wenn er nur Teile seiner Kommunikations- und Informationswelt in Touchscreens reduziert, dann ändert sich sicher einiges. Aber er hat es buchstäblich selbst in der Hand, ob er daraus – wie Kurt Drawert und ein paar findige Web-Celebs – den Sieg eines Radikalpositivismus ableitet. Oder anerkennt, dass mit dieser Erweiterung der symbolischen Handlungswelt die echtweltliche Dimension des Daseins ganz und gar nicht verloren gehen muss. Der Zwang zum iPad, diesem ubiquitären Holzapfel der Erkenntnis, ist bestenfalls einer der Peer Group. Für souveräne Leser und Schriftsteller jedoch kein Problem.

Das Entsetzliche an Kurt Drawerts Fest des Fatalismus‘ angesichts einer vermeintlichen Selbstdeformation durch Digitaltechnik („Denn es ist absehbar, dass die Techniker ihre Produkte durchsetzen, durch die wir andere werden […]“) ist jedoch, dass er seine Rolle als Schriftsteller aus den Augen verliert: Das Dagegenhalten, das Wachhalten der Wahrheit, dass eine andere, nicht-digital vermittelte Welt nicht nur möglich ist, sondern auch existiert.

Es ist keine Schande, sich von dem digitalen Rauschen mit wenigen Relevanzinseln dazwischen (deren Existenz Kurt Drawert leider ausblendet) über- und herausgefordert zu sehen. Aber der trübsinnigen Versuchung zu verfallen – die übrigens in gleicher Weise zum idealtypischen Charakter der Internetapostel zählt – und seine eigene Wahrnehmung zur Standard-Conditio des Menschen im Jahr 2012 hoch zu rechnen, ist auch keine Lösung.

Das fanden wir heute jedenfalls alle in der Schlange am Postschalter, zu der wir wie jeden Tag unsere Ersatzformen der E-Mail trugen, um sie auch wirklich fein gestempelt auf den Weg zu bringen. Danach ging es dann ins Büro, wo es sich gut vernetzt als Drawert’sche „Ratte, die unter Reizstrom steht“ kleine Lektürekritiken wie diese schreiben lässt. Wie ist die Welt doch wunderbar vielgestaltig in ihren Schreib- und Textmöglichkeiten!

(Berlin, 23.07.2012)