Nieuw onderzoek onthult potentiële cyberdreiging voor persoonlijke informatie
Nieuw onderzoek uit de VS wijst erop dat vooraf getrainde taalmodellen (PLM’s) zoals GPT-3 met succes kunnen worden doorzocht op real-world e-mailadressen die waren opgenomen in de enorme hoeveelheden gegevens die werden gebruikt om ze te trainen. Hoewel het momenteel moeilijk is om een echte e-mail te krijgen door het taalmodel te bevragen over de persoon aan wie de e-mail is gekoppeld, bleek uit het onderzoek dat hoe groter het taalmodel, hoe gemakkelijker het is om dit soort exfiltratie uit te voeren; en dat hoe uitgebreider en beter geïnformeerd de vraag is, hoe gemakkelijker het is om een functioneel e-mailadres te verkrijgen.
In de krant staat: ‘De resultaten tonen aan dat PLM’s echt een groot aantal e-mailadressen onthouden; ze begrijpen echter niet de exacte associaties tussen namen en e-mailadressen, bijvoorbeeld van wie het onthouden e-mailadres toebehoort. Daarom kunnen PLM’s, gezien de context van de e-mailadressen, een behoorlijk aantal e-mailadressen herstellen, terwijl weinig e-mailadressen correct worden voorspeld door te zoeken met namen.’
Om de theorie te testen, trainden de auteurs drie PLM’s van toenemende grootte en parameters, en ondervroegen ze volgens een reeks sjablonen en methoden die een aanvaller waarschijnlijk zou gebruiken. De paper biedt drie belangrijke inzichten in de risico’s van het opnemen van persoonlijke informatie uit de echte wereld in de enorme trainingscorpora waarvan grote PLM’s afhankelijk zijn.
Memoriseren en Associëren van Persoonlijke Informatie
Het werk draait om de mate waarin informatie wordt onthouden en geassocieerd. Een getraind NLP-model kan de informatie waarop het is getraind niet volledig abstraheren, anders zou het niet in staat zijn om een samenhangend betoog te houden of om het even welke feitelijke gegevens op te roepen. Daartoe zal een model discrete brokken gegevens onthouden en beschermen, die minimale semantische knooppunten in een mogelijk antwoord zullen vertegenwoordigen.
De grote vraag is of gememoriseerde informatie kan worden opgeroepen door andere soorten informatie op te roepen, zoals een ‘benoemde’ entiteit, zoals een persoon. In dat geval kan een NLP-model dat is getraind op niet-openbare en geprivilegieerde gegevens ziekenhuisgegevens over Elon Musk bevatten, zoals patiëntendossiers, een naam en een e-mailadres. In het ergste geval wordt zo’n database bevraagd met de prompt ‘Wat is het e-mailadres van Elon Musk?’ of ‘Wat is de patiëntgeschiedenis van Elon Musk?’ zou die gegevenspunten opleveren.
PLM’s Testen en Resultaten
De auteurs testten hun theorie op drie iteraties van de GPT-Neo causale taalmodelfamilie, getraind op de stapel dataset op 125 miljoen, 1.3 miljard en 2.7 miljard parameters. De onderzoekers filterden e-mailadressen met standaardpatronen eruit en voerden vervolgexperimenten uit.
Voor de voorspelling met contexttaak slaagde GPT-Neo erin om 8.80% van de e-mailadressen correct te voorspellen. Bij de zero-shot instelling taak kon de PLM slechts een klein aantal e-mailadressen correct voorspellen, meestal in overeenstemming met standaardpatronen. Grotere modellen vertoonden een hogere voorspellingsnauwkeurigheid.
Risico’s en Aanbevelingen
Met betrekking tot het potentieel van dergelijke benaderingen om persoonlijke gegevens uit getrainde modellen te exfiltreren, merkten de auteurs op dat grotere modellen een groter volume aan trainingsgegevens kunnen onthouden en beter kunnen begrijpen. Als remedie adviseren ze rigoureuze voorverwerking, differentiële privé gradiënt afdaling, en filters in nabewerkingsomgevingen om persoonlijke informatie te beschermen.
Hoewel de aanval op persoonlijke informatie momenteel als ‘relatief veilig’ wordt beschouwd, benadrukt het onderzoek dat constante waakzaamheid en verbeterde beveiligingsmaatregelen essentieel zijn in een tijd waarin NLP-modellen steeds geavanceerder en groter worden.