Hoe goed is GenAI écht in het oplossen van examenvragen? Spoiler: behoorlijk goed.

[ENGLISH BELOW]
Kan je een wetenschappelijk probleem oplossen met alleen maar AI-tools, zonder dat je iets van het onderwerp afweet? Dat was het uitgangspunt van een experiment opgezet door de Faculteit Farmaceutische, Biomedische en Diergeneeskundige Wetenschappen en de Faculteit Geneeskunde en Gezondheidswetenschappen van de Universiteit Antwerpen.

Het experiment
‘Elke faculteit leverde drie opdrachten aan die door onderzoekers, ondersteuners of assistenten van de andere faculteit opgelost moesten worden’, legt Liselotte Steensels uit, domeincoördinator onderwijsinnovatie en leeromgeving bij het Departement Onderwijs en verantwoordelijk voor initiatieven rond AI in onderwijs. ‘De deelnemers mochten hiervoor enkel AI-tools gebruiken. Voorkennis, overleg met collega’s of externe bronnen zoals handboeken of artikels waren dan weer niet toegestaan’, aldus Liselotte. De opdrachten waren op bachelor- en masterniveau en gingen van pure kennisvragen tot meer complexe, geïntegreerde casussen.

Het resultaat
En wat blijkt? 8 van de 14 opdrachten behaalden een voldoende. ‘Vooral de pure kennisvragen behaalden met GenAI een mooie score. Dat wil dus zeggen dat studenten opdrachten potentieel volledig met AI kunnen afwerken’, zegt Liselotte. De tijdsbesteding per opdracht varieerde sterk (tussen 30 minuten en 4 uur), waarbij de deelnemers minimaal 2 tot maximaal 16 prompts gebruikten. Ze maakten gebruik van verschillende GenAI-tools, zonder dat er een ‘beste’ GenAI-tool naar voren kwam.

De conclusie
AI-zoekmachines bieden snelle toegang tot overzichtelijke en relevante, vaak verrassend accurate kennis, maar ze missen meestal nuance. Wetenschappelijke vaardigheden zoals data-analyse, rapporteren en kritisch denken blijven cruciaal. Toezicht door de mens blijft dus onmisbaar. En misschien wel het belangrijkst: de cruciale vertaalslag naar de klinische praktijk, die praktijkervaring vereist, kan (nog) niet door AI worden overgenomen.

Wat nu?
GenAI is here to stay, daar kunnen we niet omheen. Maar hoe implementeren we die AI-tools nu in het onderwijs? ‘Er is nood aan een herziening van de structuur en opbouw van bepaalde opdrachten’, legt Liselotte uit. ‘Zo kunnen we de validiteit van toetsing blijven waarborgen.’
Een opdracht mondeling bespreken, met de focus op interpretatie, kritisch inzicht en redeneren, zou een oplossing kunnen zijn.

“We moeten steeds kritisch blijven kijken naar de antwoorden.”

‘Eigenlijk is dit resultaat voor mij niet geheel onverwacht’, vertelt professor Ingrid De Meester van de onderzoeksgroep Medische Biochemie. Als een van de deelnemers stelde ze een opdracht op voor de Faculteit Geneeskunde en Gezondheidswetenschappen. ‘AI evolueert zo snel en wordt steeds accurater, maar af en toe maken de modellen een grote blunder.’
Ingrid De Meester omarmt ook de nieuwe AI-tools. ‘Het is belangrijk om deze nieuwe tools te integreren, maar we moeten steeds kritisch blijven kijken naar de antwoorden’, legt ze uit. ‘Zo hebben we de studenten dit jaar een opdracht gegeven die ze een eerste keer moesten uitwerken met GenAI en een tweede keer met de klassieke bronnen. Daar moesten ze dan een analyse van maken.’
Een mondelinge component aan een opdracht toevoegen kan volgens Ingrid De Meester nuttig zijn om na te gaan of een student effectief begrijpt wat hij of zij schrijft. ‘Wanneer je in gesprek gaat, kan je veel beter peilen of de student kritische genoeg is.’

Ook professor Lucia Vergauwen van het Departement Diergeneeskundige Wetenschappen deed mee aan het experiment en vindt het belangrijk om de toetsing enigszins te wijzigen. ‘We plannen de bestaande oefeningensessies uit te breiden’, legt ze uit. ‘Studenten zullen eerst zelf data interpreteren gevolgd door een AI-gegenereerde data-interpretatie met kritische evaluatie van de AI-output. En dit onder begeleiding van docenten en assistenten.’ Ook de toetsing zal gewijzigd worden naar een mondelinge bespreking van de data-interpretatie tijdens de oefeningensessie, gecombineerd met een practicumverslag dat beperkt wordt tot handgetekende schema’s.

How good is GenAI really at solving exam questions? Spoiler: quite good.

Can you solve a scientific problem using only AI tools, without any prior knowledge of the subject? That was the premise of an experiment set up by the Faculty of Pharmaceutical, Biomedical, and Veterinary Sciences and the Faculty of Medicine and Health Sciences at the University of Antwerp.

The Experiment
‘Each faculty provided three assignments that had to be solved by researchers, support staff, or assistants from the other faculty’, explains Liselotte Steensels, domain coordinator for educational innovation and learning environments at the Department of Education, responsible for AI initiatives in education. ‘Participants were only allowed to use AI tools. Prior knowledge, consultation with colleagues, or external sources such as textbooks or articles were not permitted’, Liselotte adds. The assignments ranged from bachelor- to master-level and covered everything from pure knowledge questions to more complex, integrated case studies.

The Results
And what did they find? Eight of the fourteen assignments passed. ‘Especially the pure knowledge questions scored very well with GenAI. This means that, potentially, students could complete assignments entirely with AI’, says Liselotte. The time spent per assignment varied widely (from 30 minutes to 4 hours), with participants using a minimum of two and a maximum of sixteen prompts. They used a variety of GenAI tools, but no single tool stood out as the ‘best’.

The Conclusion
AI search engines provide quick access to organized and relevant, often surprisingly accurate knowledge, but they usually lack nuance. Scientific skills such as data analysis, reporting, and critical thinking remain crucial. Human supervision is therefore indispensable. And perhaps most importantly: the critical translation to clinical practice, which requires hands-on experience, cannot (yet) be performed by AI.

What’s Next?
GenAI is here to stay, and we can’t ignore it. But how do we integrate these AI tools into education? ‘There is a need to revise the structure and design of certain assignments’, Liselotte explains. ‘This allows us to maintain the validity of assessments.’
One possible solution could be to discuss an assignment orally, focusing on interpretation, critical insight, and reasoning.

“We must always critically evaluate the answers.”

‘Honestly, these results are not entirely surprising to me’, says Professor Ingrid De Meester from the Medical Biochemistry research group. As one of the participants, she designed an assignment for the Faculty of Medicine and Health Sciences. ‘AI evolves so quickly and is becoming increasingly accurate, but occasionally the models make major mistakes.’ Ingrid De Meester also embraces the new AI tools. ‘It’s important to integrate these new tools, but we must always critically evaluate the answers’, she explains. ‘This year, for example, we asked students to complete an assignment once with GenAI and once with traditional sources, then analyze the results.’
Adding an oral component to an assignment can be useful, according to Ingrid De Meester, to verify whether a student truly understands what they have written. ‘When you discuss it in conversation, you can much better gauge whether the student is thinking critically enough.’

Professor Lucia Vergauwen from the Department of Veterinary Sciences also joined the experiment and sees the importance of adjusting assessments. ‘We plan to expand the existing practical sessions’, she explains. ‘Students will first interpret data themselves, followed by an AI-generated data interpretation with a critical evaluation of the AI output, under the guidance of instructors and assistants.’ Assessment will also be adjusted to include an oral discussion of the data interpretation during the practical session, combined with a lab report limited to hand-drawn diagrams.