zondag 9 december 2018

Text and datamining


Van de week hadden we een cursus Text en datamining. Kijken wat we daar als UB eventueel in zouden kunnen betekenen. Maar sowieso ook gewoon interessant, aangezien data het nieuwe goud schijnen te zijn en we er bij de onderhandelingen met de uitgevers ook vaak rekening mee moeten houden dat we de wetenschappers de mogelijkheid moeten kunnen bieden hun teksten te minen. Moeten we eerst natuurlijk wel een beetje weten wat het voor iets is.

Het ochtendprogramma was relatief luchtig, met behandeling van simpele, maar leuke tools om mee te dataminen. De middag was pittig, met een opdracht in RapidMiner, een programma waar je volgens de docent relatief makkelijk (want zonder te hoeven programmeren) bijvoorbeeld een sentimentanalyse op een tekst mee uit zou kunnen voeren. Nou, dat viel dus vies tegen. Gelukkig maar dat onze IT-jongens er wél chocola van konden maken; helaas echter niet letterlijk.

Wat ik er onder andere van onthouden heb, is dat het zogenaamde preprocessen (het klaarzetten van het materiaal) het meeste werk kost. Aan de analyse zijn we niet eens toegekomen, dus dat geloofde ik meteen. Ik voelde me ook meteen heel dom.

Nee, doe mij dan maar de eenvoudige tooltjes, zoals de Ngram Viewer van Google, waarmee je Google Books kunt doorzoeken op woordcombinaties van een x aantal (ook wel n) woorden (grams) kunt doorzoeken. Adolf Hitler levert het volgende plaatje op:


En Julius Caesar dit:

Leuk om eens over na te denken: waarom kwam de naam Adolf Hitler in de boeken van de jaren vijftig nog nauwelijks voor en de naam van Julius Caesar zo veel begin jaren veertig?


Of waarom de woordcombinatie I don't know tegenwoordig zo'n hoge vlucht heeft genomen? Zijn we in de loop van de tijd soms slimmer geworden in die zin dat we steeds meer beseffen dat we eigenlijk niets weten? Of gewoon: onzekerder?

 Voyant, waar je een snelle tekstanalyse mee kunt doen, vond ik ook leuk. En natuurlijk kon ik het niet laten om eens een kleine analyse op mijn weblog uit te voeren. Van alleen het laatste kwartaal, want hoe je de hele tekst van een weblog eruit haalt, dat weet ik niet. Als iemand het wel weet, dan hoor ik dat natuurlijk graag!


In de wordcloud in de linkerbovenhoek kun je zien dat ik de woorden 'we' en 'je' het vaakst gebruik. En natuurlijk natuurlijk. Zo'n heerlijk stopwoordje bij het schrijven. Mijn vocabulairedichtheid is 0,325 en het gemiddeld aantal woorden per zin bedraagt 16,4. Gaaf toch, zo'n tool? Beter dan zelf te gaan zitten tellen.

Ik ben benieuwd of dat nog geëvolueerd is in de loop van de tijd.

Enfin, leuk speelgoed!

afbeelding

Geen opmerkingen: