Een onmisbaar stuk in de puzzel van data-analyse

Bij gebrek aan echt sociaal contact tijdens de covidcrisis, schreven talloze mensen op sociale media over hun twijfels om zich te laten vaccineren. Al die Facebook- en X-berichten zijn een schat aan informatie om de argumenten tegen vaccins te analyseren. Jens Van Nooten (CLiPS) gebruikte Multi-Label Tekstclassificatie (MLTC) om deze enorme tekstcollectie met behulp van AI-modellen te voorzien van passende labels, zoals topics, emoties of medische codes. MLTC is volgens Jens onmisbaar om trends op grote schaal te onderzoeken, maar er is een reeks uitdagingen aan verbonden. (Tekst: Jens Van Nooten)

Vaccinatietwijfel in kaart te brengen

Jens Van Nootens onderzoek bestond deels uit argumenten detecteren over vaccinatietwijfel in Facebookreacties en X-posts. Zo ontwikkelde hij met andere onderzoekers aan de Universiteit Antwerpen een monitor om vaccinatietwijfel in Vlaanderen en Nederland in kaart te brengen, genaamd Vaccinpraat. Dit deden ze door neurale netwerken te trainen om ten eerste vaccinatietwijfel op te sporen en ten tweede de argumenten hiervoor te classificeren. Denk bijvoorbeeld aan complottheorieën over vaccins of zorgen rond de veiligheid ervan.

Doordat een bericht meerdere argumenten kon bevatten, was er nood aan een multi-label classificatiemodel. Dit bleek echter uitdagend te zijn, want de modellen waren niet gewend aan het unieke taalgebruik in covidgerelateerde teksten. Daarom trainde Jens met collega-onderzoekers een nieuw taalmodel dat gespecialiseerd is in het taalgebruik in covidgerelateerde X-berichten. Daarnaast onderzocht hij hoe overtuigend huidige taalmodellen zelf X-posts kunnen genereren die vaccinatietwijfel uitdrukken. Wat bleek hieruit? De gegenereerde data was wel realistisch, maar niet heel overtuigend. Desondanks hielpen deze verzonnen berichten bij het accurater opsporen van de voorgenoemde argumenten tegen vaccins, zoals de snelle ontwikkeling van de coronavaccins, complottheorieën over Bill Gates en het geloof in alternatieve geneesmiddelen.

Simpeler én beter dan Chat-GPT

Naast het onderzoek naar vaccinatietwijfel, vergeleek Jens generatieve taalmodellen −bijvoorbeeld Chat-GPT −met kleinere getrainde taalmodellen. Zo vond hij dat kleinere taalmodellen de bovenhand hadden bij de classificatie van onderwerpen (“topics”) in nieuwsartikels. Hij kwam tot hetzelfde besluit bij hiërarchische tekstclassificatie —een variant van multi-label tekstclassificatie waarbij de labelsets hiërarchisch geordend zijn.  Bij de classificatie van topics kan het bijvoorbeeld nuttig zijn om zowel algemene labels (“economie”) als gedetailleerde labels (“binnenlandse economie”) aan een tekst toe te kennen.

Tot slot benutte Jens de semantische gelijkenis tussen teksten en labelnamen om op een efficiënte en intuïtieve manier teksten te classificeren, wat een pak minder rekenkracht vraagt dan een neuraal netwerk te trainen. Deze methode bouwt verder op de intuïtie dat binnen een neuraal netwerk een nieuwsartikel over sport nauw verwant is met het label “sport”. Kort gezegd, in deze reeks toepassingen zijn simpele AI-modellen dus regelmatig te verkiezen boven complexere methodes.

Lees ook

Contact

Jens Van Nooten | jens.vannooten@uantwerpen.be

An unmissable piece in the dataset analysis puzzle
Jens Van Nooten (CLiPS) explored, among other things, why people hesitated to take a COVID vaccine. For this, he used Multi-Label Text Classification (MLTC), a challenging yet essential component for analysing large text collections. The goal of MLTC is to assign one or more appropriate labels — e.g., topics, emotions, or medical codes — to a text using AI models. “However, this brings several challenges, such as unbalanced label sets, domain-specific terminology, interactions between labels, and the increasing computational cost of classification models,” Jens explains.

Together with other researchers at the University of Antwerp, he developed a social media monitoring tool named Vaccinpraat to map vaccine hesitancy in Flanders and the Netherlands. They achieved this by training neural networks to detect vaccine hesitancy on the one hand, and to classify the arguments behind it on the other. “Think, for example, of conspiracy theories about vaccines or concerns about vaccine safety,” Jens adds. “A single post can express multiple arguments for vaccine hesitancy. Hence the need for a multi-label classification model.” However, this proved to be challenging. Therefore, he trained a new language model specialized in the language used in COVID-related X posts together with fellow researchers. Additionally, he investigated how convincingly current language models can generate X posts that express vaccine hesitancy. What did he find? The generated data was realistic but not very convincing. Nonetheless, this data helps to more accurately detect the aforementioned arguments.

In addition to his research on vaccine hesitancy, Van Nooten compared generative language models, such as Chat-GPT, with smaller trained language models for several other applications. He found that smaller language models outperformed the generative ones in classifying topics in news articles. For hierarchical text classification — a variant of multi-label text classification where the label sets are hierarchical in nature — Van Nooten also explored smaller models with simpler training methods. Here, he also found that these models often delivered better results than more complex methods. Finally, he utilized the semantic similarity between texts and label names to classify texts in an efficient and intuitive way, which requires significantly less computational resources than training a neural network.