Potentieel grote rol voor taalmodellen in informatielandschap

18 oktober 2024

Met de opkomst van generatieve AI kan onbetrouwbare informatie eenvoudig op grote schaal worden verspreid, met potentieel ernstige gevolgen. Tegelijkertijd kunnen taalmodellen, getraind en geëvalueerd op hoogwaardige datasets, hierbij een oplossing bieden, blijkt uit onderzoek van taalwetenschapper Chantal van Son.

Van Son: “Stel je vraagt je af of je je kind wel of niet moet laten vaccineren. Taalmodellen zouden kunnen worden ingezet in applicaties die helpen overzicht te bieden van alle beweringen rond de veiligheid en effectiviteit van vaccinaties. Welke bronnen pleiten vóór vaccinaties? Welke raden ze juist af? Wat zijn de onderliggende argumenten?"

Beperkingen bestaande datasets

In het onderzoek heeft Van Son eerst verschillende bestaande datasets geanalyseerd en concludeerde dat deze niet optimaal werken: “Zo zijn sommige datasets gebaseerd op kunstmatige tekst. Bovendien houden veel datasets geen rekening met de verschillende perspectieven die in een tekst kunnen worden uitgedrukt, terwijl dit juist vaak voorkomt, bijvoorbeeld in nieuwsberichten of op sociale media.”

Nieuwe techniek

Van Son besloot daarom op zoek te gaan naar manieren om nieuwe datasets te ontwikkelen die representatiever zijn voor natuurlijk taalgebruik en rekening houden met verschillende standpunten in een tekst. Het leidde tot de PANLI (Perspective-Aware Natural Language Inference) dataset. “Deze dataset is samengesteld op basis van teksten over vaccinaties, waarbij zinnen aan elkaar gekoppeld zijn op basis van hun betekenis. Elk zinspaar is vervolgens beoordeeld door meerdere personen, die de taak kregen de relatie tussen de twee zinnen te bepalen. Hierbij werd onderscheid gemaakt tussen het standpunt van de auteur van de zin en genoemde bronnen. De uiteindelijke dataset weerspiegelt de verschillende lagen van subjectiviteit in zowel tekstuele betekenis als menselijke interpretatie, wat een grote vooruitgang voor toepassing van taalmodellen in de praktijk kan betekenen.”

Potentieel grote rol voor taalmodellen in informatielandschap

Neem contact op met Persvoorlichting VU

Direct naar

Studie

Uitgelicht

Over de VU