Van Son: “Stel je vraagt je af of je je kind wel of niet moet laten vaccineren. Taalmodellen zouden kunnen worden ingezet in applicaties die helpen overzicht te bieden van alle beweringen rond de veiligheid en effectiviteit van vaccinaties. Welke bronnen pleiten vóór vaccinaties? Welke raden ze juist af? Wat zijn de onderliggende argumenten?"
Beperkingen bestaande datasets
In het onderzoek heeft Van Son eerst verschillende bestaande datasets geanalyseerd en concludeerde dat deze niet optimaal werken: “Zo zijn sommige datasets gebaseerd op kunstmatige tekst. Bovendien houden veel datasets geen rekening met de verschillende perspectieven die in een tekst kunnen worden uitgedrukt, terwijl dit juist vaak voorkomt, bijvoorbeeld in nieuwsberichten of op sociale media.”
Nieuwe techniek
Van Son besloot daarom op zoek te gaan naar manieren om nieuwe datasets te ontwikkelen die representatiever zijn voor natuurlijk taalgebruik en rekening houden met verschillende standpunten in een tekst. Het leidde tot de PANLI (Perspective-Aware Natural Language Inference) dataset. “Deze dataset is samengesteld op basis van teksten over vaccinaties, waarbij zinnen aan elkaar gekoppeld zijn op basis van hun betekenis. Elk zinspaar is vervolgens beoordeeld door meerdere personen, die de taak kregen de relatie tussen de twee zinnen te bepalen. Hierbij werd onderscheid gemaakt tussen het standpunt van de auteur van de zin en genoemde bronnen. De uiteindelijke dataset weerspiegelt de verschillende lagen van subjectiviteit in zowel tekstuele betekenis als menselijke interpretatie, wat een grote vooruitgang voor toepassing van taalmodellen in de praktijk kan betekenen.”