Machine learning-gedreven analyse van privacybeleid van de afgelopen 25 jaar.

Simon Janssen
Leestijd 10 minuten

In een recent onderzoek zijn analysetechnieken voor machinaal leren gebruikt om de leesbaarheid, bruikbaarheid, lengte en complexiteit van meer dan 50,000 privacybeleidsregels op populaire websites in kaart te brengen in een periode van 25 jaar, van 1996 tot 2021. Het onderzoek onthult schokkende feiten: de gemiddelde lezer zou zich moeten wijden aan 400 uur ‘jaarlijkse leestijd’ (meer dan een uur per dag) om door te dringen tot de groeiende stortvloed van woorden, verwarrend taalgebruik en vaag taalgebruik dat kenmerkend is voor het moderne privacybeleid van enkele van de meest bezocht websites.

Het rapport vermeldt: “De gemiddelde looptijd van de polis is de afgelopen tien jaar bijna verdubbeld, met 2159 woorden in maart 2011 en 4191 woorden in maart 2021, en bijna verviervoudigd sinds 2000 (1146 woorden).” Dit roept ernstige vragen op over gebruikersvriendelijkheid en transparantie.

Hoewel het tempo van toename in lengte piekte toen de AVG en de California Consumer Privacy Act (CCPA) beschermingen van kracht werden, beschouwt de krant deze variaties als ‘kleine effectgroottes’ die onbeduidend lijken in vergelijking met de bredere langetermijntrend. De AVG wordt echter geïdentificeerd als een mogelijke oorzaak van het groeiende ‘vage’ taalgebruik in het beleid.

Uitgaande van een leessnelheid van 250 woorden per minuut, stelt de krant dat het lezen van het gemiddelde privacybeleid nu 17 minuten duurt, terwijl meer populaire beleidsregels (dwz beleidsregels die verband houden met een groot aantal gebruikers) 23 minuten nodig hebben om te voltooien. Het langste beleid in de dataset, van Microsoft, heeft 152 minuten nodig om te consumeren, volgens het onderzoek, dat gebruik maakte van een aantal varianten op Google’s BERT-taalmodel.

Groei in leestijd

Veel van de recente toename van breedsprakigheid en dubbelzinnigheid in het privacybeleid wordt door de krant toegeschreven als een reactie op pogingen in de afgelopen twee decennia om regelgeving op te leggen, maar ook op het onoprechte gebruik van wettelijke nalevingsvereisten als excuus om heimelijk de reikwijdte en ondoorzichtigheid van het privacybeleid te verruimen. “Over het algemeen laten onze resultaten zien dat recente privacyregelgeving de privacy van gebruikers online niet substantieel heeft verbeterd, maar eerder heeft geleid tot een opgeblazen privacybeleid dat steeds meer invasieve gegevenspraktijken beschrijft.”

Hoewel een aantal Natural Language Processing (NLP)-artikelen de afgelopen jaren de leesbaarheid en andere aspecten van het privacybeleid hebben besproken, is de auteur van mening dat dit het eerste project in zijn soort is dat zo’n breed overzicht biedt van de beleidsontwikkeling in de afgelopen decennia.

Elliptische taal en leesbaarheid

Het rapport suggereert ook dat het gemiddelde aantal ‘verwarrende woorden’ (dwz aanvaardbaar, aanzienlijke, voornamelijk, en andere woorden die geen definitieve betekenis geven) in het privacybeleid gestaag toenam tot 2018, maar toen snel omhoog schoot van een mediaan van 227 rond maart 2018 naar 304 in juni 2020. Deze stijging wordt toegeschreven aan de effecten van de AVG, en de paper constateert dat meer dan tweederde (72%) van de zinnen in het bestudeerde privacybeleid minimaal één verwarrend woord bevatte.

Uit de studie bleek dat over drie veelvoorkomende metingen van leesproblemen ‘privacybeleid door de jaren heen steeds moeilijker te lezen is geworden’. De auteurs schatten dat 41% van het huidige toepasselijke beleid dat beschikbaar is in 2021 een mediaan had Flesch leesgemak (FRE, hoger is beter) van slechts 31.8, terwijl de auteur observeert “Deze score duidt op een zeer moeilijke tekst die het best wordt begrepen door universitair afgestudeerden”. Tegelijkertijd behaalde slechts 6.7% van de polissen een FRE-score van meer dan 45 (wat volgens het rapport de leesstandaard is die vereist is voor verzekeringspolissen in de staat Florida).

Bewustwording van beleidswijzigingen

Het werk gaat ook in op de mate waarin het privacybeleid details bevat over hoe de potentiële toestemminggever uiteindelijk op de hoogte zal worden gebracht in het geval van latere updates, wat van invloed kan zijn op de bereidheid van de gebruiker om de overeenkomst te handhaven. De auteur merkt op: “In 2021 bevat 73% van de polissen een verklaring over beleidswijziging. Hiervan geeft 34% aan dat wijzigingen zullen worden aangekondigd door middel van een bericht in het privacybeleid, 37% zal een bericht op de website plaatsen en 22% zal een persoonlijk bericht sturen (bij de overige beleidsregels wordt het meldingstype niet gespecificeerd).”

Als gevolg hiervan zullen de meeste gebruikers waarschijnlijk niet op de hoogte zijn van wijzigingen in het privacybeleid. Bovendien krijgen gebruikers bijna geen zinvolle keuze als het beleid verandert. Van de polissen die de gebruiker op de hoogte stellen van wijzigingen, biedt slechts 12% een nieuwe opt-in, terwijl 34% geen keuze geeft en 54% deze ongespecificeerd laat.

Beperkte keuze met betrekking tot tracking

Volgens de studie wordt in het privacybeleid een veel groter aantal mechanismen aangeboden voor toegang tot gebruikersaccountinformatie dan voor toegang tot gebruikersprofielgegevens. Profielgegevens kunnen worden aangemaakt en bijgewerkt via geautomatiseerde en niet voor de hand liggende mechanismen, terwijl gebruikersaccountgegevens niet alleen expliciet door de gebruiker worden verleend, maar ook verplicht zijn om te worden bewerkt onder regelgeving van verschillende rechtsgebieden.

Keuze van de consument boven toestemming voor cookies in het privacybeleid (een onderwerp dat verhit debat oproept sinds de komst van de AVG honderdduizenden cookie-toestemmingspop-ups voor EU-instanties van internationale en Europese websites heeft afgekondigd) wordt over het algemeen behandeld in het beleid, maar verbergt een belangrijkere laag van minder toegankelijke gegevens: “[De] keuzes met betrekking tot cookies zijn onvoldoende om gebruikers te beschermen tegen alle tracking, omdat keuze- of controlemechanismen zelden worden aangeboden voor computerinformatie, apparaat-ID’s en persoonlijke identificatiegegevens, waarmee gebruikers via vingerafdrukken kunnen worden gevolgd.”

Data en methodology

Om de gegevens voor het onderzoek te verkrijgen, doorzocht de auteur websites op zoek naar links naar hun privacybeleid, waarbij hij het vaak nodig vond om de reikwijdte verder te verbreden dan het oorspronkelijke resultaat, vanwege het aantal niet-integrale beleidsregels die linken naar ander beleid (elk van die het potentieel heeft om samen met of onafhankelijk van het moederbedrijf of gerelateerd beleid te veranderen). De Wayback Machine werd gebruikt om historisch beleid te verkrijgen, hoewel het bij het overwegen van resultaten noodzakelijk was om rekening te houden met beleid dat was geblokkeerd voor crawlen of archiveren via een robots.txt-configuratiebestand (een klein tekstbestand met instructies voor webcrawlende indexeringsagenten met betrekking tot pagina’s en andere entiteiten die ze niet in een openbare index mogen opnemen).

Eén momentopname per maand werd verkregen van de Wayback Machine door haar CDX-API voor elk identificeerbaar en continu van toepassing zijnd beleid, met behulp van Firefox onder Selenium. Het uitvoeren van optische tekenherkenning op polissen die alleen in PDF-formaat beschikbaar zijn, kwam niet in aanmerking voor het project, dat zich beperkte tot het (veel grotere) aantal beschikbare HTML-policies.

Een interessant resultaat van het project is dat de duidelijkheid en leesbaarheid van pornografische websites in de loop van het bestudeerde interval daadwerkelijk is verbeterd – mogelijk vooruitlopend op de groeiende roep om meer regulering en duidelijkheid. Om deze documenten te verzamelen, was het nodig om ze te verkrijgen met extra crawls vanaf residentiële IP-adressen, vanwege de inhoudblokkeringsprotocollen van de universiteit.

In eerste instantie werden 1,068,683 documenten verkregen, gelijk aan 120,265 unieke documenten met gemiddeld 39.1 beleidsartikelen of clausules en 4.4 unieke beleidsteksten per link.

Alleen Engels

Zoals gebruikelijk is in vergelijkbare recente onderzoeken, kon het project niet ingaan op niet-Engelse privacybeleidsregels, die tijdens de fase van het opschonen van gegevens werden weggegooid met behulp van de PYCLD2 pakket. Om het privacybeleid te onderscheiden van andere soorten materiaal, gebruikte het project een classificatie ontwikkeld in 2019 als een gezamenlijk initiatief van de Universiteit van Wisconsin en de École Polytechnique Fédérale de Lausanne.

Hoewel de IS-POLICY-classificator werd getraind op hetzelfde corpus van 1,000 documenten als in het oorspronkelijke artikel, moest de auteur nieuwe niet-beleidsdocumenten aanschaffen voor training, aangezien de originele bronnen niet beschikbaar waren. Na filtering werden de gegevens teruggebracht tot 56,416 unieke privacyverklaringen.

Dit onderzoek toont aan dat de huidige ontwikkelingen in privacybeleidsregels verre van ideaal zijn. Het dwingt ons te reflecteren op de ethische implicaties van zulke niet-transparante en complexe documenten die de privacy van gebruikers ondermijnen in plaats van te beschermen.

TAGGED:
Share This Article
Volg:
Simon Janssen is een technologie-enthousiast die al meer dan 20 jaar gefascineerd is door de wereld van techniek en software. Zijn reis begon met het eigenhandig assembleren van computers, maar al snel verlegde hij zijn focus naar web development. Hij begon enkele jaren geleden met het creëren van zijn eerste websites en heeft sindsdien een schat aan kennis opgebouwd op het gebied van online marketing, SEO en front-end development. Met de opkomst van kunstmatige intelligentie heeft Simon altijd zijn vinger aan de pols gehouden, en hij maakt dagelijks gebruik van AI-tools zoals Chat GPT om zijn passie voor technologie en software verder te verkennen en te delen.