KNCLPRT

Nobody’s Fault but My Own.

Twitter feed – vervolg

In een vorige blogpost kan u al lezen hoe je enkele eenvoudige analyses kan uitvoeren op je eigen Twitter-archief. De vorige keer hield ik mij vooral bezig met kwantitatief onderzoek; aantal tweets, wanneer, hoeveel karakters,… Deze keer gaan we het over de inhoud hebben. Als dat maar goed gaat… en voor zover je al over kwaliteit kan spreken natuurlijk.

We baseren ons uiteraard op hetzelfde archief van Tweets die we eerder reeds hebben gedownload (zie de vorige post om de stappen te zien om dat archief te bekomen), dus de eerste stappen zijn uiteraard dezelfde. Eerst gaan we de dataset en de nodige libraries inladen. (Het R-bestand kan u eveneens in mijn Github-account terugvinden voor verdere inspiratie).

## Load packages
library(tm)
library(stringr)
library(wordcloud)
## Set working directory and load data
setwd("~/OneDrive/Vault/Vlaamse Overheid/Data Science/tweets-kc/data")
tweets <- read.csv("tweets.csv", stringsAsFactors = FALSE)

De Wordcloud

De meest eenvoudige vraag die we ons kunnen stellen is welke woorden we allemaal gebruiken en of die bijvoorbeeld terugkomen en -zo ja- in welke frequentie. Om dat te bekomen kunnen we een eenvoudige visualisatie gebruiken, de wordcloud. Om een propere tekstfile te bekomen moeten we de typische Twitter-dingen zoals handles (@kcolpaert om er maar één te noemen) wel eerst uit de tekst verwijderen.

nohandles <- str_replace_all(tweets$text, "@\\w+", "")

Eenmaal dat achter de rug is kunnen we de tekst verder masseren met behulp van het text mining pakket tm. In de volgende stappen gaan we alle overbodige tekstelementen verwijderen zoals puctuaties typische stopwoorden uit het Engels en Nederlands, je kan zelfs een eigen lijst definiëren van termen die niet dienen meegenomen te worden in de analyse.

wordCorpus <- Corpus(VectorSource(nohandles))
wordCorpus <- tm_map(wordCorpus, removePunctuation)
wordCorpus <- tm_map(wordCorpus, content_transformer(tolower))
wordCorpus <- tm_map(wordCorpus, removeWords, stopwords("english"))
wordCorpus <- tm_map(wordCorpus, removeWords, stopwords("dutch"))
wordCorpus <- tm_map(wordCorpus, removeWords, c("amp", "BTW", "FYI", "LOL")) #remove certain words
wordCorpus <- tm_map(wordCorpus, stripWhitespace)
wordCorpus <- tm_map(wordCorpus, stemDocument) #stemming: remove endings, not used

Bovenstaande stappen zijn eenvoudige te volgen: eerst hebben we alle handles eruit gegooid, dan hebben we alle tekst in lowercase gezet (dit is niet strikt noodzakelijk maar je verkrijgt er wel een mooiere wordcloud), nadien moesten de stopwoorden eraan geloven (ook dat is niet noodzakelijk maar je loopt dan wel het risico dat je een betekenisvolle brij krijgt en alle Wordclouds op elkaar gelijken), dan volgt er een lijstje met veelgebruikte afkortingen die ook niet echt iets toevoegen om te eindigen met het verwijderen van de spaties voor en na elk woord. Op die manier verkrijgen we wat men noemt een “corpus”.

Een corpus is een collectie tekstbestanden met gesproken of geschreven materiaal waarop we onze kwalitatieve analyse kunnen baseren. Het is een term uit de NLP, Natural Language Processing, niet te verwarren met die andere “NLP”, Neuro Linguistisch Programmeren wat eigenlijk maar wat pseudo-wetenschappelijk gezwets is maar we wijken af…

De laatste stap in de bovenstaande reeks code is een speciale, het betreft “stemming”. Dit is een proces waarbij we het einde van bepaalde woorden verwijderen zodat we enkel de stam overhouden. Zo worden boodschapper, boodschappenlijstje,…etc afgekort tot boodschap. Stemming is iets wat je niet per algemene regel kan toepassen aangezien het ook aanleiding kan geven tot rare en zelfs onbestaande afkortingen. Het gebruik ervan is dus sterk afhankelijk van de gebruikte tekst. Het is dus aangewezen de oefening te doen met en zonder de stemming zodat je kan zien wat het effect juist is op de verdere analyse.

Dan is het nu tijd om eens wat te visualiseren aan de hand van een wordcloud. Een wordcloud neemt een lap tekst en visualiseert dan de woorden alnaargelang frequentie; hoe meer ze voorkomen in de tekst, hoe groter en hoe centraler ze weergegeven worden. Je kan spelen met verschillende opties zoals de grootte van de tekst, de kleuren van de woorden en per hoeveel keer voorkomen je gaat tellen.

pal <- brewer.pal(9,"Greys")
pal <- pal[-(1:4)]
set.seed(123)
wordcloud(words = wordCorpus, scale=c(5,0.1), max.words=100, random.order=FALSE,
     rot.per=0.35, use.r.layout=FALSE, colors=pal)

tweets-kc-wordcloud

Bij het bekijken van deze wordcloud valt al meteen iets op. In de kwantitatieve analyse was reeds gebleken dat ik een periode heb gekend waarbij er redelijk wat automatische tweets de wereld werden ingevuurd komende vanuit mijn vroegere blog maar ook door andere services zoals Foursquare of LastFM. Dat wordt nu meteen bevestigd door de centrale plaats van woorden zoals Lastfm (duh!), artist, mayor, post en blog. Dit geeft ook meteen mee dat ik een weinig persoonlijke gebruiker ben van het medium.

Wordclouds kunnen echter ook nog gebruikt worden voor andere tekstelementen te visualiseren. Herinner u dat we in het begin van deze analse alle @handles verwijderd hebben? Vergeet dat, we gaan nu juist kijken naar die handles om te weten te komen wie onze Twitter-vriendjes zijn. Om de boel een beetje proper te houden maken we vanuit ons Tweet-archief een nieuw corpus maar deze keer zijn we enkel geïnteresseerd in de gebruikersnamen.

friends <- str_extract_all(tweets$text, "@\\w+")
namesCorpus <- Corpus(VectorSource(friends))

Op deze manier hebben we een bestand gemaakt met daarin alle Twitter-accounts van de mensen die ik volg maar vooral retweet en reply. Mijn beste vriend blijkt echter @foursquare te zijn 🙁

set.seed(146)
wordcloud(words = namesCorpus, scale=c(3,0.5), max.words=40, random.order=FALSE,
     rot.per=0.10, use.r.layout=FALSE, colors=pal)

tweets-kc-bff

Andere namen die er meteen uitspringen zijn een ex-collega en een paar bekendere personen zoals Marc Reynebeau en Joël De Ceulaer, naast een profvoetballer en een bekende urbex-fotograaf.

En toen werd hij even emotioneel…

Eén van de leukste dingen die je met tekst kan doen is op basis van de woorden deze in te delen in achterliggende emoties. Sentimentele analyse is echter een hele ingewikkelde bedoening. Het is immers zeer sterk contextgebonden om nog maar te zwijgen van de verschillen in cultuur, geslacht en taal. Hoe kan een computer bijvoorbeeld omgaan met sarcasme of gewoon grappig zijn? Voor deze oefening speelt dat eigenlijk allemaal maar weinig belang maar voor een wetenschappelijke toepassing vermoed ik dat er heel wat meer bij komt kijken. We gaan eraan beginnen met het inladen van de nodige libraries en dan worden we helemaal sentimenteel.

## Let's get Emotional
## Sentiment
library(syuzhet)
library(lubridate)
library(ggplot2)
library(scales)
library(reshape2)
library(dplyr )
mySentiment <- get_nrc_sentiment(tweets$text)

Het algoritme dat we gaan toepassen is gebaseerd op het NRC Word-Emotion Association Lexicon ontwikkeld door Saif Mohammad en Peter Turney. Het basisidee is dat we alle woorden kunnen indelen in acht verschillende emoties en twee sentimenten (positief en negatief). We verkrijgen dus een lexicon waarin elk individueel woord een “ja” (1) of “nee” (0) meekrijgt voor de emoties en sentimenten. Door alles samen te tellen hebben we een score die kan dienen als het totale sentiment voor die zin. Het spreekt voor zich dat niet elk woord uit een taal isua opgenomen in het lexicon aangezien de meeste redelijk neutraal zijn qua emotionele lading. Het lexicon is uiteraard opgesplitst in verschillende talen. Arabisch, Japans, Engels,Frans en Portugees steken er bovenuit, elk met meer dan 14.000 woorden. Verbazender echter is dat pakweg het Russisch ook bij de meest “emotionele” talen hoort. Een associatie die ik nu niet direct uit eigen beweging zou maken.
Het Nederlands is vertegenwoordigd met 7,850 woorden.

Laat ons beginnen met een testje

get_nrc_sentiment("Resistance is futile")
anger anticipation disgust fear joy sadness surprise trust negative positive
1   1      0    0  0  0    1    0   0    2    0

Op basis van een dergelijke beperkte sample is er natuurlijk niet veel te vertellen. We gaan het dus wat interessanter maken en gooien er eens een stevige zin tegenaan. Ik koos voor de mooiste literaire zin van 2014 geschreven door Dimitri Verhulst.

get_nrc_sentiment("Jouw kapsel, voor zover dat nog een kapsel mocht worden genoemd, had veel weg van zo'n in die dagen in zwang rakende ecologische tuin, waarin elke menselijke ingreep als een misdaad tegen de natuur werd beschouwd")
 anger anticipation disgust fear joy sadness surprise trust negative positive
1   0      0    0  1  0    1    0   0    1    0

Veel schokkends levert dit precies niet op, wat dat zegt over de waarde van het werk van Dimitri Verhulst laat ik in het midden. Tijd om onszelf eens op de rooster te leggen.

Bij het laden van de libraries had ik reeds alle tweets in een eigen dataset gestopt genaamd “mySentiment”. Het is op basis van deze set dat we nu gaan verder werken.

head(mySentiment)

anger anticipation disgust fear joy sadness surprise trust negative positive
1 0 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0
3 0 2 0 0 0 0 0 1 0 2
4 0 0 0 0 0 0 0 0 0 1
5 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0 0

Ik ben er niet echt kapot van moet ik zeggen dus gaan we maar terug naar de visualisaties. Stel dat we alle tweets zouden opsplitsen volgens de eerder vermelde acht emoties. Wat zouden dan de meest voorkomende emoties zijn?

sentimentTotals <- data.frame(colSums(tweets[,c(11:18)]))
names(sentimentTotals) <- "count"
sentimentTotals <- cbind("sentiment" = rownames(sentimentTotals), sentimentTotals)
rownames(sentimentTotals) <- NULL
ggplot(data = sentimentTotals, aes(x = sentiment, y = count)) +
geom_bar(aes(fill = sentiment), stat = "identity") +
theme(legend.position = "none") +
xlab("Sentiment") + ylab("Aantal") + ggtitle("Tweets volgens sentiment")

tweets-kc-sentiment

Verwachting en vertrouwen zijn blijkbaar de belangrijkste emoties in mijn berichten. Negatieve emoties als angst en boosheid volgen pas op respectabele afstand. Gelukkig spui ik niet over alles en nog wat mijn mening op Twitter of dit plaatje kon er helemaal anders uitzien. Dat is trouwens nog een idee; dit onderzoekje binnen enkele jaren nog eens overdoen om te kijken of er een bepaalde evolutie inzit. Longitidunaal onderzoek for the win! (Ja, ik heb gestudeerd en gebruik af en toe graag een moeilijk woord)

Over tijd gesproken; zou er door de jaren heen een evolutie inzitten? Zou ik bijvoorbeeld meer of minder verzuurd geraakt zijn?

## Sentiment over time
tweets$timestamp <- with_tz(ymd_hms(tweets$timestamp), "Europe/Brussels")
posnegtime <- tweets %>%
 group_by(timestamp = cut(timestamp, breaks="2 months")) %>%
 summarise(negatief = mean(negative),
      positief = mean(positive)) %>% melt
names(posnegtime) <- c("timestamp", "sentiment", "meanvalue")
posnegtime$sentiment = factor(posnegtime$sentiment,levels(posnegtime$sentiment)[c(2,1)])
ggplot(data = posnegtime, aes(x = as.Date(timestamp), y = meanvalue, group = sentiment)) +
 geom_line(size = 2.5, alpha = 0.7, aes(color = sentiment)) +
 geom_point(size = 0.5) +
 ylim(0, NA) +
 scale_colour_manual(values = c("springgreen4", "firebrick3")) +
 theme(legend.title=element_blank(), axis.title.x = element_blank()) +
 scale_x_date(breaks = date_breaks("10 months"),
        labels = date_format("%Y-%b")) +
 ylab("Gemiddelde sentimentele score") +
 ggtitle("Sentiment over de jaren")

tweets-kc-sentiment-tijd

Veel is daar niet uit af te leiden in mijn geval behalve misshien het feit dat ik in het algemeen positiever dan negatief ben in mijn uitlatingen. Nu gaan we kijken of er een relatie is tussen de emotie en de dag in de week. Hiervoor gebruiken we opnieuw de wday() functie uit lubridate en dplyr voor de groepering van de tweets volgens weekdag.

## Sentiment on weekdays
tweets$weekday <- wday(tweets$timestamp, label = TRUE)
weeklysentiment <- tweets %>% group_by(weekday) %>%
 summarise(anger = mean(anger),
      anticipation = mean(anticipation),
      disgust = mean(disgust),
      fear = mean(fear),
      joy = mean(joy),
      sadness = mean(sadness),
      surprise = mean(surprise),
      trust = mean(trust)) %>% melt
names(weeklysentiment) <- c("weekday", "sentiment", "meanvalue")
ggplot(data = weeklysentiment, aes(x = weekday, y = meanvalue, group = sentiment)) +
 geom_line(size = 2.5, alpha = 0.7, aes(color = sentiment)) +
 geom_point(size = 0.5) +
 ylim(0, 0.6) +
 theme(legend.title=element_blank(), axis.title.x = element_blank()) +
 ylab("Gemiddelde sentimentele score") +
 ggtitle("Sentiment volgens weekdag")

Wat eer rommeltje! Daar is werkelijk niets van te maken behalve dat mijn “verwachting” op zondag het hoogst is om dan af te nemen en vanaf woensdag terug de hoogte ingaat. De rest blinkt uit in algemeenheid qua voorkomen. Gelijkaardig hiermee kunnen we dit ook bekijken per maand in plaats van dag van de week.

## Correlation months and feelings?
tweets$month <- month(tweets$timestamp, label = TRUE)
monthlysentiment <- tweets %>% group_by(month) %>%
 summarise(anger = mean(anger),
      anticipation = mean(anticipation),
      disgust = mean(disgust),
      fear = mean(fear),
      joy = mean(joy),
      sadness = mean(sadness),
      surprise = mean(surprise),
      trust = mean(trust)) %>% melt
names(monthlysentiment) <- c("month", "sentiment", "meanvalue")
ggplot(data = monthlysentiment, aes(x = month, y = meanvalue, group = sentiment)) +
 geom_line(size = 2.5, alpha = 0.7, aes(color = sentiment)) +
 geom_point(size = 0.5) +
 ylim(0, NA) +
 theme(legend.title=element_blank(), axis.title.x = element_blank()) +
 ylab("Gemiddelde sentimentele score") +
 ggtitle("Sentiment doorheen het jaar")

Ook hier is eigenlijk maar één conclusie die er uitspringt; “vertrouwen” en “verwachting” zijn de meest voorkomende wat meteen overeenkomt met één van onze eerdere grafieken. Naar het einde van het jaar toe is er precies wel een toename van enkele negatieve emoties maar al bij al verpest dat mijn kerststemming niet te veel.

Tot slot

En daarmee rond ik het rondje kwantitaief en kwalitatief ego-surfen af. Beide R-documenten met alle code die ik in deze analyse gebruikte zijn terug te vinden in de bijhorende Github-repository tweets-kc. De repo bevat ook de csv met mijn tweets tussen mei 2008 en december 2015 maar deze kan op eenvoudige wijze aangepast worden met uw eigen archief. Als laatste wens ik nog Julia Silge te bedanken voor het idee en de input. Standing on the shoulders of giants and stuff…

Twitter Feed Analyse

Ik heb een Twitter-account. Niets speciaal zal u zeggen en gelijk heeft u, ik gebruik die dan ook voornamelijk om mensen te volgen die wel degelijk iets interessants of grappig te vertellen hebben. Het gebeurt slechts sporadisch dat ik daar zelf iets op post. De vraag was dan ook: “Wat heb ik daar dan sedert mei 2008 op uitgespookt?”. Hoeveel berichten? Wanneer? Ik was dan ook niet weinig benieuwd naar de resultaten

Net op de valreep van 2015 kwam ik een blogpost van Julia Silge tegen waarin ze haar 10.000ste tweet vierde met een analyse van haar Twitter-archief. Net als Julia begon ik enkele maanden geleden met een zelfstudie van het data science pakket R. Ik besloot haar technieken toe te passen op mijn eigen, iets bescheidener, archief.

Proloog

Ik organiseer mijn project-bestanden -zowel privé als professioneel- steeds via een bepaalde structuur. Bestandsnamen en folders liggen min of meer op voorhand vast, dat helpt bij de organisatie. Elk project hoort uiteraard thuis in zijn eigen folder en op het hoofdniveau vinden we de volgende bestanden terug:

 • README.md: een markdown-bestand met algemene uitleg over het project, het doel en wat de lezer mag verwachten. Dat is vooral nuttig als je het project beschikbaar wil maken op bijvoorbeeld Github.
 • naam-project.r: een volledige log van alle handelingen die ik uitvoer in R. Documenteer je stappen zo duidelijk mogelijk zodat het voor anderen (uiteraard ook voor jezelf) mogelijk is het project te reproduceren.

Wat volgt zijn dan een aantal standaardmappen, de uwe kunnen hier gerust van afwijken maar voor mij werkt het:

 • analysis: tussentijdse resultaten, hoofdstukken,… ik gebruik dit vooral om grote R-projecten op te breken in aparte r-bestanden, elk voor een specifiek doel.
 • data: alle databronnen nodig voor het project. Dit kunnen csv-bestanden zijn maar evengoed spreadsheets (Excel, Google Docs,…). Bij mij staan hier eveneens sql-statements in die nodig zijn om data te laden of te bewerken.
 • doc: bijkomende documentatie (metadata-files, beschrijving van de bronnen,…)
 • figures: grafieken, afbeeldingen,…
 • paper: finaal document, versies, LaTeX-bestanden,…
 • setup: eventueel kleine tooltjes die je in de loop van je projectje nodig hebt. Uiteraard voor zover deze nog niet op je pc staan dus zeker niet in elk project alle installatiemedia van R, RStudio, Python, Git, enzovoort… opslaan.

De naamgeving is meestal in het Engels, dat doet uiteraard niets ter zake maar het bekt wel beter 🙂 Eenmaal de software geïnstalleerd staat en ons voorbereidend werk gedaan is kunnen we er echt aan gaan beginnen.

De Data

Zonder data kan je uiteraard niets beginnen. Voor dit project hebben we het archief van onze Twitter-account nodig; dus elke tweet, retweet en reactie sinds je aanmelding.

In sommige gevallen is het verkrijgen van de data al een project op zich maar hier is het wel heel eenvoudig aangezien Twitter je archief als een csv-bestand ter beschikking stelt. Ga naar je Twitter-account, klik op je profielfoto -> Settings. Onderaan dat scherm zie je nu een mogelijkheid om je Twitter-archief af te laden. Je krijgt een mail met een downloadlink van zodra je archief beschikbaar is. Superhandig! Eenmaal de CSV beschikbaar is plaats ik die vervolgens in de data-subfolder.

De analyse

De eerste stap in zowat elk project in R is het laden van de benodigde libraries, het aangeven van de werkdirectory en het laden van de data:

library(ggplot2)
library(lubridate)
library(scales)
setwd("~/Dev/tweets-kc/data")
tweets <- read.csv("tweets.csv", stringsAsFactors = FALSE)

In de laatste stap wordt het bronbestand (tweets.csv) ingeladen en krijgt het de roepnaam “tweets” mee, op die manier kan je soms lange en lastig te onthouden bronbestanden een werkbare naam meegeven.

Momenteel is de datum in je bronbestand een string, om soepel te werken gaan we die omvormen in een echt datum-tijd veld. Om ervoor te zorgen dat alle datums en tijdstippen correct zijn -zeker als je tweets zou verstuurd hebben vanuit verschillende tijdzones- gaan we die allemaal op dezelfde tijdzone zetten.

tweets$timestamp <- ymd_hms(tweets$timestamp)
tweets$timestamp <- with_tz(tweets$timestamp, "Europe/Brussels")

En nu de echte fun!

Tweets volgens jaar, maand en dag

Mijn eerste tweets dateren van mei 2008, laat ons eerst eens kijken wat dat geeft over de verschillende jaren heen.

ggplot(data = tweets, aes(x = timestamp)) +
 geom_histogram(aes(fill = ..count..)) +
 theme(legend.position = "none") +
 xlab("Jaar") + ylab("Aantal tweets") +
 scale_fill_gradient(low = "lightgray", high = "black")

kc-tweets-year

Je ziet onmiddellijk dat er ergens in 2011 een ferme piek geweest is in mijn Twitter-gebruik. Welke deze tweets waren zullen we later nog wel eens uitzoeken. Op zich is deze grafiek niet echt mooi door de verschillende staafhoogtes. We doen nog eens hetzelfde maar deze keer groeperen we de tweets per jaar.

ggplot(data = tweets, aes(x = year(timestamp))) +
 geom_histogram(breaks = seq(2007.5, 2015.5, by =1), aes(fill = ..count..)) +
 theme(legend.position = "none") +
 xlab("Jaar") + ylab("Aantal tweets") +
 scale_fill_gradient(low = "lightgray", high = "black")

kc-tweets-yearly

Dat ziet er alvast iets beter uit. Je ziet meteen dat de jaren 2011-2012 mijn drukste periode op Twitter waren. Nu wou ik ook wel eens weten of er een verschil zou zijn in mijn tweet-gedrag alnaargelang de dag van de week.

ggplot(data = tweets, aes(x = wday(timestamp, label = TRUE))) +
 geom_bar(aes(fill = ..count..)) +
 theme(legend.position = "none") +
 xlab("Dag van de Week") + ylab("Aantal tweets") +
 scale_fill_gradient(low = "lightgray", high = "black")

kc-tweets-daily

Hmmm, de meeste tweets in het begin van de week en dat gaat dan eigenlijk gradueel naar beneden naarmate het weekend nadert. Ongetijfeld voer voor arbeidspsychologen maar daar gaat het nu niet om. De aandachtige lezer heeft meteen door dat de week hier nogal Amerikaans begint op zondag. Ik heb nog niet uitgevogeld hoe je in het lubridate package de week op maandag kan laten beginnen. (wday is hetgeen ik nu heb gebruikt)

Nu we ons tweetgedrag kennen op dagniveau doen we nu deze oefening nog eens over opgedeeld volgens maand. Zou ik bijvoorbeeld meer tweeten in de maand mei, ik zeg maar wat…

ggplot(data = tweets, aes(x = month(timestamp, label = TRUE))) +
 geom_bar(aes(fill = ..count..)) +
 theme(legend.position = "none") +
 xlab("Maand") + ylab("Aantal tweets") +
 scale_fill_gradient(low = "lightgray", high = "black")

kc-tweets-monthly

Ha! We zaten er niet ver naast, het hoogtepunt van de tweets bekeken per maand ligt in het begin van de lente (in november en december vervelen we ons allicht gewoon meer). Een logische uitleg is er allicht niet voor dit soort gedrag.

Tweets volgens tijdstip

Tot nu toe hebben we het nog redelijk high-level gehouden en gekeken naar het aantal tweets opgesplitst volgens jaar, maand en dag van de week. Gezien de redelijk grote verschillen in aantal tweets over de maanden heen vroeg ik mij af of dit ook het geval kon zijn wanneer we het aantal tweets uitzetten over de uren van de dag?

kc-tweets-hourly

Om dit resultaat te bekomen had ik echt hulp nodig. Het was dus de bedoeling enkel de tijdsinformatie over te houden en dus alle info over jaar, maand en dag eruit te gooien.

tweets$timeonly <- as.numeric(tweets$timestamp - trunc(tweets$timestamp, "days"))

Een bijkomend probleem is dat niet alle tweets in de csv-file geldige tijdsinformatie hebben. Als we weten over welke berichten het gaat kunnen we die in een aparte kolom gooien genaamd timeonly en ze via een NA label uit de analyse halen.

tweets[(minute(tweets$timestamp) == 0 & second(tweets$timestamp) == 0),11]<-NA
mean(is.na(tweets$timeonly)

Blijkbaar hebben ongeveer 16% van de berichten geen geldig datumveld zoals blijkt uit het resultaat van bovenstaand commando.

[1] 0.1617211

Als we dan de rest van de tweets die wel over een geldig datumveld in een histogram gooien kunnen we aan de hand van scales aangeven hoe groot het interval dient te zijn.

class(tweets$timeonly) <- "POSIXct"
ggplot(data = tweets, aes(x = timeonly)) +
 geom_histogram(aes(fill = ..count..)) +
 theme(legend.position = "none") +
 xlab("Tijdstip") + ylab("Aantal tweets") +
 scale_x_datetime(breaks = date_breaks("3 hours"),
          labels = date_format("%H:00")) +
 scale_fill_gradient(low = "lightgray", high = "black")

Het resultaat is toch enigszins verbazend aangezien een niet gering aantal tweets blijkbaar verstuurd worden tussen middernacht en 5 uur ’s ochtends. In deze oefening gaat het zoals gezegd enkel om een kwantitatief onderzoek maar ik vermoed dat de nachtelijke tweets automatische berichten zijn naar aanleiding van het publicatieschema van bepaalde blogposts. In elk geval was mijn nieuwsgierigheid voldoende geprikkeld om er toch wat dieper op in te gaan.

latenighttweets <- tweets[(hour(tweets$timestamp) < 6),]
ggplot(data = latenighttweets, aes(x = timestamp)) +
 geom_histogram(aes(fill = ..count..)) +
 theme(legend.position = "none") +
 xlab("Tijdstip") + ylab("Aantal tweets") + ggtitle("Late Night Tweets") +
 scale_fill_gradient(low = "lightgray", high = "black")

kc-tweets-late-night

Hashtags en retweets

Oké, genoeg fun met de tijdsreeksen…tijd voor iets anders. Hoe zou het zitten met het gebruik van hastags en hoeveel berichten zijn simpele retweets van anderen?

ggplot(tweets, aes(factor(grepl("#", tweets$text)))) +
 geom_bar(fill = "darkgray") +
 theme(legend.position="none", axis.title.x = element_blank()) +
 ylab("Aantal tweets") +
 ggtitle("Tweets met Hashtags") +
 scale_x_discrete(labels=c("Zonder #", "Met #"))

kc-tweets-hashtags

Dat valt dik tegen; 3/5 van mijn berichten worden verstuurd zonder hastag. Het valt bovendien te vrezen dat de berichten die wel voorzien zijn van een hashtag dan ook nog eens retweets zijn van anderen.

Over retweets gesproken…

ggplot(tweets, aes(factor(!is.na(retweeted_status_id)))) +
 geom_bar(fill = "darkgray") +
 theme(legend.position="none", axis.title.x = element_blank()) +
 ylab("Aantal tweets") +
 ggtitle("Retweeted Tweets") +
 scale_x_discrete(labels=c("Tweet", "Tweettweet"))

kc-tweets-retweets

We gebruiken dus niet alleen nauwelijks hashtags maar om je berichten te laten retweeten moet je ook al niet bij mij zijn. Rest dan nog de vraag hoeveel van mijn berichten een antwoord zijn op de tweets van anderen?

ggplot(tweets, aes(factor(!is.na(in_reply_to_status_id)))) +
 geom_bar(fill = "darkgray") +
 theme(legend.position="none", axis.title.x = element_blank()) +
 ylab("Aantal tweets") +
 ggtitle("Replied Tweets") +
 scale_x_discrete(labels=c("Geen reply", "Replied tweets"))

kc-tweets-reply

Ouch! Slechts 10% van mijn berichten zijn een antwoord op een eerdere tweet. Echt sociaal kan je dat niet noemen.

We kunnen dit nu allemaal samengooien in één grafiek; dus het aantal tweets, volgens type en uitgezet op een tijds-as. Hiervoor moeten een paar extra lijnen code gebruikt worden voor de labels.

tweets$type <- "tweet"
tweets[(!is.na(tweets$retweeted_status_id)),12] <- "RT"
tweets[(!is.na(tweets$in_reply_to_status_id)),12] <- "reply"
tweets$type <- as.factor(tweets$type)
tweets$type = factor(tweets$type,levels(tweets$type)[c(3,1,2)])
ggplot(data = tweets, aes(x = timestamp, fill = type)) +
 geom_histogram() +
 xlab("Time") + ylab("Number of tweets") +
 scale_fill_manual(values = c("midnightblue", "deepskyblue4", "aquamarine3"))

kc-tweets-type

Aantal tekens

De meeste mensen hebben zich wellicht nooit afgevraagd waarom een tweet beperkt is tot 140 tekens. Weinigen weten dan ook dat Twitter aanvankelijk een SMS-service was waarbij een individu een bericht kon versturen naar een hele groep. Oudere internauten zullen zich nog wel gelijkaardige technologieën herinneren zoals LISTSERV, de voorloper van onze huidige nieuwsgroepen en internetfora. Het SMS-framework werd naderhand wel verlaten maar de 140 tekens limiet bleef.

Laat ons nu eens kijken hoeveel tekens ik meestal gebruik.

tweets$charsintweet <- sapply(tweets$text, function(x) nchar(x))
ggplot(data = tweets, aes(x = charsintweet)) +
 geom_histogram(aes(fill = ..count..), binwidth = 8) +
 theme(legend.position = "none") +
 xlab("Tekens per Tweet") + ylab("Aantal tweets") +
 scale_fill_gradient(low = "lightgray", high = "black")

kc-tweets-char

Op het eerste zicht een min of meer mooie Gauss-curve maar werd zonet niet gezegd dat de limiet op 140 tekens stond? En toch zijn er tweets met 150 en meer tekens?! We kunnen dit controleren door de tweets met meer dan 140 tekens eruit te filteren.

tweets[(tweets$charsintweet > 140),]

Het gaat om een gering aantal, 13 in totaal. Wat meteen opvalt is dat elk van deze tweets een ingekorte url bevat die in mijn archief is uitgeklapt naar de volledige achterliggende url. Mysterie opgelost!

Vervolg

Ik haalde reeds aan dat het momenteel vooral een kwatitatieve analyse betrof. Er wordt dan ook een vervolg gepland dat iets meer zal ingaan op de inhoud van de tweets; veelgebruikte woorden of hashtags…dat soort dingen.

« Oudere berichten

© 2016 KNCLPRT

Thema gemaakt door Anders NorenBoven ↑