LIBREAS.Library Ideas

„Credit to whom credit is due“ – Bloganalysen mit Google und R

Posted in LIBREAS.Projektberichte by libreas on 31. Januar 2011

angeregt vom  wachsenden Interesse  quantitativen Untersuchungen über die Wirkung von Bloginhalten, wie zuletzt im Beitrag Blogs als Quellen in der bibliothekarischen Fachkommunikation, lässt sich ebenfalls die Verlinkung innerhalb von Blogs näher explorieren.

Um schnell an möglichen Daten zu gelangen, erscheint http://blogsearch.google.com/ vielversprechend. Dank R sind die Daten für die weitere statistische Untersuchung der Bloglinks auf den LIBREAS Blog auch ohne Programmierkenntnisse schnell gewonnen:

library(XML)

google <- "http://blogsearch.google.de/blogsearch_feeds?q=link:"

para <- "&num=100&hl=de&lr=&safe=off&output=atom"

blog <- "libreas.wordpress.com" #blog url

url<-paste(google,blog,para)#query

doc<-xmlTreeParse(url,useInternal=T)

name=xpathApply(doc, "//r:uri",xmlValue,namespaces=c(r="http://www.w3.org/2005/Atom"))

name=as.character(unlist(name))

lib<-as.character(rep(blog,times=length(name)))

df<-as.data.frame(cbind(lib,name))

Created by Pretty R at inside-R.org

Schnell noch mit table als Matrix umgewandelt, lässt sich ein Ego-Netzwerk visualisieren.  Die Knoten- und Kantengrößen entsprechen der Anzahl der Links

Das Ego-Netzwerk wurde mit visone visualisiert, aber auch R bietet mit sna entsprechende Funktionen.

Über Google Blog Search lassen sich prima facie sämtliche in Blogs referenzierte Webinhalte lokalisieren, wie z.B. Bloglinks, die auf die Webseiten der Universitätsbibliothek Bielefeld verweisen:

Abschließend wäre es nur noch eine Fleißarbeit, die einzelnen Funktionsaufrufe zu vereinen und auf eine größere Untersuchungseinheit anzuwenden. Allerdings lassen sich mit diesem Ansatz nur die ersten hundert Treffer abrufen.

(von Najko Jahn)

4 Antworten

Subscribe to comments with RSS.

  1. CH said, on 1. Februar 2011 at 14:36

    Vielen Dank für die Anleitung. Das war eine hervorragende Gelegenheit, endlich mal wieder R auszugraben!

  2. Tobias Escher said, on 22. Februar 2011 at 10:01

    Toller Hinweis, ich hatte gar nicht daran gedacht, dass man mit R auch direkt Webinhalte aufrufen und verarbeiten kann – das werde ich mir bei Gelegenheit noch einmal genauer ansehen. Allerdings gibt es bei der Verwendung von Google Blogsearch eine Reihe von Problemen zu beachten, die ich nach einigen bitteren Erfahrungen in einem Post 2008 beschrieben habe (http://people.oii.ox.ac.uk/escher/2008/02/28/google-blogsearch-howto/) – da scheint sich noch nix geändert zu haben.

    PS: Über die ersten 100 Treffer hinaus sollte man mit Hilfe des „&start=100“ Parameter hinauskommen.

  3. libreas said, on 23. Februar 2011 at 09:39

    Vielen Dank für die Darstellung der Google Blog Search. Sie ist sehr hilfreich.

    Meine Motivation war es, möglichst einfach an Daten über die Verlinkungsstruktur von Blogs zu gelangen. Zuvor habe ich auch mit der Yahoo Site Explorer API experimentiert, hatte aber im Gegensatz zu Google Blog Search sehr viel Rauschen in den Daten.

    Siehe

    http://siteexplorer.search.yahoo.com/search?p=libreas.wordpress.com&bwm=i&bwmo=d&bwmf=s

    Den Startparameter hatte ich vergessen, vielen Dank!

  4. mic (mic100) | Pearltrees said, on 8. März 2012 at 00:59

    […] library ( XML ) google Created by Pretty R at inside-R.org Um schnell an möglichen Daten zu gelangen, erscheint http://blogsearch.google.com/ vielversprechend. “Credit to whom credit is due” – Bloganalysen mit Google und R « LIBREAS.Library Ideas […]


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: