Propaganda genereren en herkennen met machine learning-technologieën

Simon Janssen
Leestijd 5 minuten

Nieuw onderzoek uit de Verenigde Staten en Qatar biedt een innovatieve methode om nepnieuws te identificeren zoals het daadwerkelijk door mensen geschreven wordt. Deze aanpak richt zich op het insluiten van onnauwkeurige verklaringen binnen een grotendeels waarheidsgetrouwe context en het gebruik van populaire propagandatechnieken zoals het beroep op autoriteit en geladen taal. Dit baanbrekende project heeft geleid tot de creatie van een nieuwe trainingsdataset voor het detecteren van nepnieuws, genaamd PropaNews, waarin deze technieken zijn verwerkt.

Effectiviteit van de nieuwe dataset

De auteurs van het onderzoek hebben ontdekt dat detectoren die getraind zijn op de nieuwe dataset 7.3-12% nauwkeuriger zijn in het detecteren van door mensen geschreven desinformatie dan eerdere state-of-the-art benaderingen. Voorbeelden van ‘beroep op gezag’ en ‘geladen taalgebruik’ uit het onderzoek illustreren de kracht van deze methode.

Een unieke benadering

De auteurs beweren dat, voor zover zij weten, het project het eerste is dat propagandatechnieken (in plaats van eenvoudige feitelijke onnauwkeurigheden) integreert in door machines gegenereerde tekstvoorbeelden, bedoeld om nepnieuwsdetectoren te trainen. Volgens hen is deze aanpak geschikter om te studeren hoe men zich kan verdedigen tegen door mensen geschreven nepnieuws.

De urgentie van geavanceerde detectie

Ze onderstrepen de urgentie van geavanceerde detectiemethoden met voorbeelden van de verwoestende impact van desinformatie op de Amerikaanse presidentsverkiezingen van 2016, Brexit, de COVID-19 pandemie, en de recente Russische aanval op Oekraïne. Hieruit blijkt de dringende behoefte aan een effectief verdedigingsmechanisme tegen door mensen geschreven desinformatie.

Onwaarheid definiëren

De uitdaging van het kwantificeren van propaganda is grotendeels een logistieke uitdaging. Het is duur om mensen in te huren om real-world materiaal met propaganda-achtige kenmerken te herkennen en te annoteren voor opname in een trainingsdataset. Daarom werken de onderzoekers aan een meer schaalbare oplossing.

Verzameling van data

In hun zoektocht verzamelden de onderzoekers door mensen gemaakte desinformatie-artikelen van nieuwsbronnen die als laag in feitelijke nauwkeurigheid werden beschouwd. Ze ontdekten dat 33% van de bestudeerde artikelen onoprechte propagandatechnieken gebruikte, terwijl nog eens 55% onjuiste informatie bevatte vermengd met nauwkeurige informatie.

Beroep doen op autoriteit

De beroep doen op autoriteit benadering heeft twee use-cases: het citeren van onnauwkeurige verklaringen en het citeren van volledig fictieve verklaringen. Het nieuwe project richt zich op de tweede use case, waarbij ze gebruik maken van frameworks zoals RoBERTa en BART om deze te identificeren en te veranderen in propaganda.

Geladen taal genereren

Geladen taal omvat woorden die impliciete waardeoordelen bevatten, vaak emotioneel geladen bijwoorden en bijvoeglijke naamwoorden. De auteurs gebruikten een dataset van een studie uit 2019 en SpaCy om deze taal te identificeren en te integreren in hun dataset.

PropaNews-dataset

Na grondige modeltrainingen genereerden ze de PropaNews-dataset, bestaande uit artikelen van betrouwbare bronnen die zijn aangepast met algoritmische propaganda. Deze dataset werd gevalideerd door 400 unieke werknemers van Amazon Mechanical Turk.

HumanNews-dataset

Ter evaluatie van hun aanpak verzamelden de onderzoekers 200 door mensen geschreven nieuwsartikelen en combineerden deze met aanvullende ontkrachte artikelen. Deze data werden grondig op feiten gecontroleerd om toe te voegen aan de HumanNews-dataset.

Tests en Resultaten

Het detectieproces, getest tegen bestaande frameworks, toonde aan dat varianten van Grover en RoBERTa uiterst effectief waren bij training op de PropaNews-dataset. Vooral frameworks getraind op PropaNews presteerden beter in het identificeren van door mensen geschreven desinformatie.

Verouderd? Nieuwe uitdagingen

De auteurs benadrukken dat modellen getraind op oude gegevens mogelijk niet optimaal presteren bij nieuwe gebeurtenissen. Dit toont de noodzaak aan van dynamisch leren om nieuwe vormen van desinformatie effectief te detecteren.

Paltering en context

Hoewel de studie hier niet direct op ingaat, kan dit soort diepgaand onderzoek uiteindelijk leiden tot subtiele bewapening van taal en manipulatieve contextherstructurering. Het doel is om een reactie uit te lokken die afwijkt van de feitelijke bedoeling van de informatie.

Voor meer gedetailleerde informatie, raadpleeg het originele onderzoekspaper.

 

Share This Article
Volg:
Simon Janssen is een technologie-enthousiast die al meer dan 20 jaar gefascineerd is door de wereld van techniek en software. Zijn reis begon met het eigenhandig assembleren van computers, maar al snel verlegde hij zijn focus naar web development. Hij begon enkele jaren geleden met het creëren van zijn eerste websites en heeft sindsdien een schat aan kennis opgebouwd op het gebied van online marketing, SEO en front-end development. Met de opkomst van kunstmatige intelligentie heeft Simon altijd zijn vinger aan de pols gehouden, en hij maakt dagelijks gebruik van AI-tools zoals Chat GPT om zijn passie voor technologie en software verder te verkennen en te delen.