TEXTUA: Een nieuwe kernfaciliteit rond text mining

Heb je een tekstcorpus ter beschikking dat te groot is om manueel te doorzoeken? Wil je spraakopnames automatisch laten transcriberen? Ben je benieuwd naar wat mensen tweeten over een bepaalde gebeurtenis? Voortaan kan je met dit soort vragen terecht bij TEXTUA, een gloednieuwe kernfaciliteit van UAntwerpen. TEXTUA biedt allerlei services aan die met text mining te maken hebben. Het aanbod bestaat onder meer uit tekstanalyse, adaptatie van bestaande tools en ontwikkeling van nieuwe software, en het verzamelen van datasets.

Text mining 

UAntwerpen is een kernfaciliteit rijker: TEXTUA biedt services aan rond ‘text mining’, de automatische verwerking en analyse van grote hoeveelheden tekstdata. Alle onderzoekers van de universiteit mogen aankloppen, ongeacht hun discipline of wetenschappelijke achtergrond. TEXTUA wil immers een schaalbare oplossing aanreiken aan iedereen die met grote tekstcorpora aan de slag wil. Op die manier wil de kernfaciliteit de groeiende vraag naar interdisciplinair onderzoek ondersteunen en een aanspreekpunt vormen voor interdisciplinaire studies aan onze universiteit.

Wat TEXTUA onderscheidt van een spin-off, is de focus op wetenschappelijke meerwaarde. Zo bundelt de kernfaciliteit naast de expertise in digitale tekstanalyse aan UAntwerpen ook de expertise in het begrijpen van digitale tools. De nadruk ligt immers op ‘explainable AI’: niet alleen de output van digitale systemen is belangrijk, maar ook de manier waarop die systemen werken en tot hun output zijn gekomen. Welke informatie gebruikt een computermodel? Welke tekstkenmerken blijken het relevantst? Dit soort vragen leiden tot wetenschappelijke toegevoegde waarde en kunnen zelfs nieuwe onderzoeksvragen oproepen.  

Aanbod  

Bij TEXTUA kun je in de eerste plaats terecht voor advies rond text mining en voor de uitvoering ervan. Allerlei soorten digitale tekstanalyses worden uitgevoerd: denk maar aan auteursherkenning, topic modeling en automatische grammaticale analyse van teksten. Ook voor toepassingen van machine learning, zoals predictieve statistiek, ben je bij TEXTUA aan het juiste adres. Je hoeft je overigens niet te beperken tot vragen over Nederlandse data of geschreven tekst, want TEXTUA werkt meertalig en multimodaal (en behandelt bijvoorbeeld ook gesproken taal).

Goed om weten is dat TEXTUA er voor méér is dan voor eenmalige consultaties. De faciliteit kan immers op systematische wijze betrokken worden bij een project. Zo kun je als researcher TEXTUA opnemen in je beursaanvraag, bijvoorbeeld voor de uitvoering van een bepaald werkpakket.  

Een tweede service die TEXTUA levert, betreft data. De medewerkers staan klaar met advies over bestaande corpora. Zelf beschikken ze over een uitgebreide collectie van onder meer kranten en historische bronnen. Maar TEXTUA verzamelt ook compleet nieuwe data op maat van jouw onderzoeksvraag. Je kunt bijvoorbeeld alle tweets over een bepaald onderwerp laten verzamelen en annoteren. 

Team 

TEXTUA is opgericht door vier hoogleraars van UAntwerpen, die hun expertise in text mining bundelden: Walter Daelemans (CLiPS, Taalkunde), Mike Kestemont (ACDC, Letterkunde), David Martens (Applied Data Mining, Engineering management) en José Oramas (IDLab, Informatica). 

Het aanspreekpunt van de kernfaciliteit is Pieter Fivez (CLiPS, Taalkunde). Pieter is doctor in de taalkunde en gespecialiseerd in computerlinguïstiek, een interdisciplinaire wetenschapstak op het raakvlak tussen taalkunde en informatica. Als postdoctoraal onderzoeker coördineert Pieter TEXTUA. 

Een afspraak maken 

Een afspraak bij TEXTUA maak je heel eenvoudig door via e-mail contact op te nemen met Pieter Fivez. Hij helpt je daarna graag verder via e-mail, aan de telefoon of tijdens een live gesprek in zijn kantoor op de Stadscampus. Mooi meegenomen is dat het eerste uur consultatie gratis wordt aangeboden!  

Alle info vind je op www.uantwerpen.be/textua

Portret van een jonge man
Pieter Fivez, coördinator van TEXTUA
TEXTUA, a new core facility for text mining
Do you have a body of text at your disposal that is too large to search manually? Do you want to have voice recordings transcribed automatically? Or are you curious about what people are tweeting about a certain event?

The new core facility TEXTUA offers all researchers at UAntwerp text mining services to automatically process and analyse large amounts of text data. The services include text analysis, the adaptation of existing tools and development of new software, and dataset collection. Their emphasis is on 'explainable AI': not only the output of digital systems is important, but also the way those systems function and arrive at their output. TEXTUA is there for both one-off consultations and as part of long-term projects.

Team
TEXTUA is coordinated by postdoc Pieter Fivez (CLiPS, Linguistics), who holds a PhD in linguistics and specializes in computational linguistics. This core facility was founded by four UAntwerp professors, who combined their expertise in text mining: Walter Daelemans (CLiPS, Linguistics), Mike Kestemont (ACDC, Literary Studies), David Martens (Applied Data Mining, Engineering management) and José Oramas (IDLab, Computer Science).