Onderzoekers identificeren crowdturfing op Instagram met behulp van machine learning
Onderzoekers in Italië en Iran hebben aangekondigd dat ze met succes een machine learning-systeem hebben ontwikkeld dat menselijke crowdturfing-activiteiten op Instagram kan detecteren. Crowdturfers zijn individuen die diensten aanbieden om de profielen van anderen te versterken en deze activiteiten worden op grote schaal verkocht. Dit nieuwe systeem, met een nauwkeurigheid van ongeveer 95%, maakt gebruik van semi-gecontroleerde leerprocessen in Natural Language Processing (NLP) systemen.
De auteurs van de studie beweren dat hun systeem het eerste in zijn soort is dat betrouwbaar kan omgaan met niet-botaccounts die betrokken zijn bij valse, betaalde profielverbetering. Om dit te bereiken, kochten ze 1293 crowdturfing profielen van 11 verschillende platforms om hun detectiesysteem te trainen.
Omdat Instagram effectieve anti-botmaatregelen heeft geïmplementeerd, zijn marketeers overgegaan op het betalen van echte Instagram-influencers om betrokken te raken bij specifieke accounts. Na analyse van 20 mega-influencers ontdekten de onderzoekers dat meer dan 20% van hun betrokkenheid kunstmatig was. Dit roept vragen op over de authenticiteit van zulke activiteiten.
Overtreding van de Instagram Terms of Service
Anders dan Twitter, dat sociale media-onderzoek ondersteunt, biedt Instagram geen API of updates om onderzoekers te helpen. De onderzoekers moesten daarom vrijstelling krijgen van hun Institutionele Review Board om gegevens te verzamelen. Ze kochten crowdturfing-diensten voor nieuwe Instagram-accounts die na het onderzoek werden verwijderd, zodat de betrokkenheid van legitieme gebruikers niet werd beïnvloed.
Het verkrijgen van toestemming van de beïnvloeders was niet mogelijk vanwege ethische overwegingen. De onderzoekers compromitteerden door geautomatiseerde scraping-tools op ‘menselijke snelheid’ in te stellen, wat een vijf maanden durende dataverzamelingsfase vereiste.
Markt voor nepvolgers en crowdturfing-profielen
De onderzoekers kochten 100 nepvolger-profielen van elk van de 11 aanbieders. Deze profielen worden beschouwd als ‘volgers van hoge kwaliteit’ en kosten ongeveer $3 voor 100 volgers. De onderzoekers ontdekten dat bepaalde aanbieders volgers van betere kwaliteit leverden en bescherming boden tegen verlies van volgers over tijd.
Na een maand leden sommige van de nieuwe Instagram-accounts een verlies van 15-20% aan crowdturfing-volgers, maar bij de duurste aanbieder was dit slechts 3 volgers. De onderzoekers benadrukken dat de betaling aan de provider de authenticiteit van de verhouding volgers/volgend verbetert.
Data-analyse en machine learning methoden
Met behulp van Selenium verzamelden de onderzoekers gegevens van 1293 crowdturfing- en 1307 niet-crowdturfing gebruikers. Ze pasten een scala aan NLP-technologieën toe, waaronder SpaCy, scikit-learn en installatie-loader, om de gegevens te analyseren en mogelijke crowdturfing-accounts te identificeren.
De onderzoekers waren in staat om kenmerken van nep-accounts te identificeren, zoals taalanalyse en aantal reacties. Ze ontdekten interessante onderwerpen in de nep-accounts, waaronder de dominantie van vrouwelijke thema’s.
Conclusie
De onderzoekers concluderen dat het detecteren van crowdturfing-activiteiten essentieel is vanwege de negatieve impact die het kan hebben op influencer-marketing en socialemediaplatforms zoals Instagram. Meer onderzoek is nodig om deze vorm van activiteit tegen te gaan. De volledige “paper” lees je hier.