Hoe jou vriende op Twitter jou jou anonimiteit kan weggee

Soos jy deur die internet blaai, volg aanlyn adverteerders byna elke webwerf wat jy besoek, versamel 'n trok van inligting oor jou gewoontes en voorkeure. As jy 'n nuusblad besoek, sien hulle dalk jy is 'n fan van basketbal-, opera- en raaiselverhale en kies dan advertensies wat op jou smaak pas.

Adverteerders gebruik hierdie inligting om hoogs persoonlike ervarings te skep, maar hulle weet gewoonlik nie presies wie jy is nie. Hulle sien net jou digitale roete, nie jou identiteit self nie, en so kan jy voel dat jy 'n mate van anonimiteit behou het.

Maar in 'n koerant het ek mede-outeurs gehad met Ansh Shukla, Sharad Goel en Arvind Narayanan, wys ons dat hierdie anonieme webblaaieryfers eintlik dikwels gekoppel kan word aan werklike identiteite.

Om ons benadering te toets, het ons gebou 'n webwerf waar mense hul blaaigeskiedenis kon skenk vir die doeleindes van hierdie studie. Ons het toe probeer om te sien of ons hul geskiedenis kon koppel aan hul Twitter-profiele deur slegs publieke beskikbare data te gebruik. Twee en sewentig persent van mense wat ons probeer deanonymiseer, is korrek geïdentifiseer as die topkandidaat in die soekresultate, en 81 persent was onder die top 15 kandidate.

privaatheid2 2 8Screenshots van die deanonymization webwerf.

Dit is tot ons kennis die grootste skaal van deanonymisering tot op datum, aangesien dit die regte gebruiker uit honderde miljoene moontlike Twitter-gebruikers kies. Daarbenewens vereis ons metode slegs dat 'n persoon klik op die skakels wat in hul sosiale media feeds verskyn, en nie dat hulle enige inhoud plaas nie. Daarom is selfs mense wat versigtig is oor wat hulle op die internet deel, nog steeds kwesbaar vir hierdie aanval.


innerself teken grafiese in


Hoe dit werk

Op 'n hoë vlak is ons benadering gebaseer op 'n eenvoudige waarneming. Elke persoon het 'n hoogs kenmerkende sosiale netwerk, bestaande uit familie en vriende van skool, werk en verskillende stadiums van hul lewe. As gevolg daarvan is die stel skakels in jou Facebook- en Twitter-feeds hoogs kenmerkend. Deur op hierdie skakels te kliek, verlaat u 'n tellingsmerk in u blaaigeskiedenis.

Deur te kyk na die stel webbladsye wat 'n individu besoek het, kon ons soortgelyke sosiale media feeds uitlees, wat 'n lys kandidate oplewer wat moontlik die webblaaigeskiedenis gegenereer het. Op hierdie manier kan ons 'n persoon se regte wêreld identiteit bind aan die byna volledige stel skakels wat hulle besoek het, insluitend skakels wat nog nooit op enige sosiale media-webwerf geplaas is nie.

Uitvoering van hierdie strategie behels twee belangrike uitdagings. Die eerste is teoreties: Hoe kwantifiseer jy hoe soortgelyk 'n spesifieke sosiale media-toevoer na 'n gegewe webblaaigeskiedenis is? Eenvoudige manier is om die breuk van skakels in die blaaigeskiedenis wat ook in die voer verskyn, te meet. Dit werk redelik goed in die praktyk, maar dit vergelyk ooreenkomste vir groot voere, aangesien dit eenvoudig meer skakels bevat. Ons neem eerder 'n alternatiewe benadering. Ons stel 'n gestileerde, probabilistiese model van webblaadgedrag voor, en bereken dan die waarskynlikheid dat 'n gebruiker met daardie sosiale media-stroom die waargenome blaaigeskiedenis genereer het. Dan kies ons die sosiale media feed wat waarskynlik is.

Die tweede uitdaging behels die identifisering van die mees soortgelyke feeds in real time. Hier draai ons na Twitter, aangesien Twitter feeds (in teenstelling met Facebook) grootliks publiek is. Alhoewel die feeds openbaar is, kan ons nie net 'n plaaslike kopie van Twitter skep waarna ons ons navrae kan uitvoer nie. In plaas daarvan pas ons 'n reeks tegnieke toe om die soekruimte dramaties te verminder. Ons kombineer dan caching tegnieke met on-demand netwerk crawls om die feeds van die mees belowende kandidate te bou. Op hierdie verminderde kandidaat stel ons ons ooreenstemmingsmaatreël toe om die finale resultate te lewer. Gegewe 'n blaaigeskiedenis, kan ons hierdie hele proses gewoonlik binne 60 sekondes uitvoer.

Ons metode is meer akkuraat vir mense wat Twitter meer aktief besoek. Negentig persent van die deelnemers wat op 100 of meer skakels op Twitter gekliek het, kan ooreenstem met hul identiteit.

Baie maatskappye het die dopbronne om 'n aanval soos hierdie te doen, selfs sonder die toestemming van die deelnemer. Ons het probeer om elkeen van ons eksperimentdeelnemers te deanonymiseer deur slegs die dele van hul blafgeskiedenis te gebruik wat sigbaar was vir spesifieke opsporingsmaatskappye (omdat die maatskappye trackers op daardie bladsye het). Ons het gevind dat verskeie maatskappye die hulpbronne gehad het om die deelnemers akkuraat te identifiseer.

privaatheid 2 8Ander deanonymisasie studies

Verskeie ander studies het publieke beskikbare voetspore gebruik om sensitiewe data te deanonymiseer.

Miskien is die beroemdste studie volgens hierdie lyne uitgevoer deur Latanya Sweeney by die Harvard Universiteit in 2002. Sy het dit ontdek 87 persent van Amerikaners was uniek identifiseerbaar gebaseer op 'n kombinasie van hul poskode, geslag en geboortedatum. Dié drie eienskappe was beskikbaar in beide registrasieregeringsdata (wat sy vir US $ 20 gekoop het) en anonieme mediese data (wat wyd versprei is, omdat mense gedink het die data was anoniem). Deur hierdie databronne te verbind, het sy die mediese rekords van die goewerneur van Massachusetts gevind.

In 2006, Netflix het 'n wedstryd gehardloop om die kwaliteit van sy filmaanbevelings te verbeter. Hulle het 'n anonieme datastel van mense se filmgraderings vrygestel, en $ 1 miljoen aan die span aangebied wat hul aanbeveling algoritme deur 10 persentasie kon verbeter. Rekenaarwetenskaplikes Arvind Narayanan en Vitaly Shmatikov het opgemerk dat die flieks wat mense gekyk het, baie kenmerkend was, en die meeste mense in die datastel was uniek identifiseerbaar op grond van 'n klein subset van hul flieks. Met ander woorde, op grond van Netflix film keuses en IMDB resensies, was die navorsers in staat om te bepaal wie daardie Netflix gebruikers eintlik was.

Met die opkoms van sosiale media deel meer en meer mense inligting wat onskuldig lyk, maar toon eintlik baie persoonlike inligting. 'N Studie gelei deur Michal Kosinski By die Universiteit van Cambridge gebruik Facebook graag mense se voorspellings seksuele oriëntasie, politieke sienings en persoonlikheidstrekke.

Nog 'n span, gelei deur Gilbert Wondracek by die Wene Universiteit van Tegnologie, het 'n "deanonymization machine" gebou wat uitgelig het watter groepe mense deel van die sosiale netwerk Xing was en gebruik dit om uit te vind wie hulle was - aangesien die groepe waarvan jy deel is, dikwels genoeg is om uniek te identifiseer jy.

Wat jy kan doen

Die meeste van hierdie aanvalle is moeilik om te verdedig teen, tensy jy ophou om die internet te gebruik of om deel te neem aan die openbare lewe.

Selfs as jy ophou om die internet te gebruik, kan maatskappye steeds data op jou insamel. As verskeie van jou vriende hul foonkontakte op Facebook laai, en jou nommer is in al hul kontaklyste, dan kan Facebook voorspellings oor jou maak, selfs as jy nie hul diens gebruik nie.

Die beste manier om te verdedig teen deanonymizing algoritmes soos ons s'n is om die stel mense wat toegang het tot u anonieme blaai data te beperk. Browser uitbreidings soos Ghostery blokkeer derdeparty-spoorsnyers. Dit beteken dat, hoewel die maatskappy wie se webwerf jy besoek, weet dat jy hulle besoek, sal die advertensiemaatskappye wat advertensies op hul bladsy wys, nie jou blaai data kan versamel en op verskeie webwerwe kan versamel nie.

As jy 'n webmeester is, kan jy jou gebruikers help beskerm deur hulle te laat blaai deur jou werf te gebruik HTTPS. Deur te navigeer met HTTP kan aanvallers jou blaaigeskiedenis kry deur netwerkverkeer te snuffel, wat hulle toelaat om hierdie aanval uit te voer. Baie webwerwe het reeds oorskakel na HTTPS; toe ons ons deanonymisatie-eksperiment uit die perspektief van 'n netwerkverkeer-sniffer herhaal het, kan slegs 31 persent van deelnemers gedemaniseer word.

Daar is egter baie min wat jy kan doen om jouself te beskerm teen deanonymisering aanvalle in die algemeen, en miskien is die beste aksie om jou verwagtinge aan te pas. Niks is privaat in hierdie digitale era nie.

Oor Die Skrywer

Jessica Su, Ph.D. Student by Stanford, Stanford Universiteit

Hierdie artikel is oorspronklik gepubliseer op Die gesprek. Lees die oorspronklike artikel.

verwante Boeke

at InnerSelf Market en Amazon