Doel

De Hortiradar is opgezet om de tuinbouw sector inzichten uit social media te verschaffen. Het doel is te onderzoeken hoe er over producten wordt gesproken op social media en hoe deze informatie is om te zetten naar bruikbare marktinformatie. Het is een initiatief van het BIGt&u consortium.

Voor de voedingstuinbouw en de sierteelt zijn twee woordenlijsten opgesteld met trefwoorden, zoals appel, mango, tulp en zonnebloem. Het gebruik van deze trefwoorden in social media wordt geanalyseerd middels de Hortiradar.

Data

In de Hortiradar wordt gebruik van Twitters public streaming API gemaakt. Deze geeft een constante stroom van tweets. Elke tweet wordt geanalyseerd en getagd met de trefwoorden die erin voorkomen. Alle tweets worden opgeslagen in een database waar later verdere analyses op uitgevoerd kunnen worden.

De database bevat 304,517,259 tweets van 2018-06-06 tot 2019-09-15, waarvan 644,526 in de laatste 24 uur.
De database neemt 907 GB in beslag, ongecomprimeerd zou dit 1502 GB zijn.

Stand van zaken

Bij een aantal producten is nog een zekere mate van "vervuiling" te zien in de tweets die getagd worden. Een voorbeeld van deze verkeerde tagging is het volgende: een tweet met de tekst "Het beste uitje sinds jaren" wordt op dit moment getagd als tweet die over "ui" gaat. Momenteel wordt gewerkt aan een verbetering van de tagging, door de kennis van Natural Language Processing en algoritmiek te combineren. Totdat deze tagging verbeterd is, worden sommige trefwoorden buiten de top-10 overzichten gehouden. Alle trefwoorden zijn wel toegankelijk via de Bloemen en Planten en Groente en Fruit tabbladen.

Vrije Software

De Hortiradar is vrije software. De broncode is beschikbaar op GitHub: https://github.com/mctenthij/hortiradar. Alle broncode is beschikbaar onder voorwaarden van de Apache 2.0 licentie.