Hoe Cambridge Analytica se Facebook-teikenmodel werklik gewerk het

Hoe Cambridge Analytica se Facebook-teikenmodel werklik gewerk hetHoe akkuraat kan jy aanlyn geprofileer word? Andrew Krasovitckii / Shutterstock.com

Die navorser wie se werk in die middel van die Facebook-Cambridge Analytica data-ontleding en politieke advertensies oproer het getoon dat sy metode baie soos die een gewerk het Netflix gebruik om flieks aan te beveel.

In 'n e-pos aan my het die Universiteit van Cambridge, Aleksandr Kogan, verduidelik hoe sy statistiese model Facebook-data vir Cambridge Analytica verwerk het. Die akkuraatheid wat hy beweer, dui daarop dat dit so goed werk gevestigde kieser-teikenmetodes gebaseer op demografie soos ras, ouderdom en geslag.

As dit bevestig word, sal Kogan se rekening beteken dat die digitale modellering Cambridge Analytica gebruik is skaars die virtuele kristalbal 'n paar het beweer. Tog gee die nommers Kogan wys ook wat is - en is nie - eintlik moontlik by kombinasie van persoonlike data met masjienleer vir politieke doelwitte.

Ten opsigte van een van die belangrikste openbare bekommernisse, dui Kogan se getalle daarop dat inligting oor gebruikers se persoonlikhede of "psycho"Was net 'n beskeie deel van hoe die model geteiken burgers. Dit was nie 'n persoonlikheidsmodel streng nie, maar eerder een wat demografie, sosiale invloede, persoonlikheid en alles anders in 'n groot gekorreleerde klomp gekook het. Hierdie opkyk-all-the-correlation-en-call-it-personality-benadering het skynbaar 'n waardevolle veldtog gereedskap geskep, selfs al is die produk wat verkoop is, nie heeltemal soos dit aangekla is nie.

Die belofte van persoonlikheids teiken

In die nasleep van die openbarings wat Trump-veldtogkonsultante Cambridge Analytica gebruik het data van 50 miljoen Facebook-gebruikers Om digitale politieke advertensies te rig tydens die 2016-presidensiële verkiesing in die VSA, het Facebook verloor miljarde in aandelemarkwaarde, regerings op beide kante van die Atlantiese Oseaan het ondersoeke geopen, en 'n nascent sosiale beweging is 'n beroep op gebruikers #DeleteFacebook.

Maar 'n sleutelvraag het onbeantwoord gebly: Was Cambridge Analytica regtig in staat om veldtogboodskappe effektief aan burgers te rig op grond van hul persoonlikheidseienskappe - of selfs hul "innerlike demone, "Soos 'n maatskappy se fluitjieblaaier beweer het?

As iemand weet wat Cambridge Analytica gedoen het met sy massiewe troef van Facebook-data, sou dit Aleksandr Kogan en Joseph Chancellor wees. Dit was hul aanvang Global Science Research wat profielinligting van 270,000 Facebook-gebruikers en miljoene van hul vriende Gebruik 'n persoonlikheidstoets app genaamd "thisisyourdigitallife."

Deel van my eie navorsing fokus op begrip machine learning metodes, en my komende boek bespreek hoe digitale firmas aanbevelingsmodelle gebruik om gehore te bou. Ek het 'n idee gehad oor hoe Kogan en die kanselier se model gewerk het.

So ek het Kogan gestuur om te vra. Kogan is nog steeds 'n navorser aan die Universiteit van Cambridge; sy medewerker Kanselier werk nou by Facebook. In 'n merkwaardige vertoning van akademiese beleefdheid het Kogan geantwoord.

Sy antwoord vereis 'n paar uitpak, en 'n bietjie agtergrond.

Van die Netflix-prys na "psigometrie"

Terug in 2006, toe dit nog 'n DVD-by-posmaatskappy was, het Netflix 'n beloning van $ 1 miljoen aan enigiemand wat 'n beter manier ontwikkel het om voorspellings te maak oor gebruikers se rolprentranglys as wat die maatskappy reeds gehad het. 'N Verrassende top mededinger was 'n onafhanklike sagteware-ontwikkelaar wat die skuilnaam Simon Funk gebruik, wie se basiese benadering uiteindelik opgeneem is in al die topspanne se inskrywings. Funk het 'n tegniek aangepas wat "enkelvoudige waarde ontbinding, "Kondenseer gebruikers se graderings van films in a reeks faktore of komponente - In wese 'n stel afgeleide kategorieë, volgens belang. As Funk verduidelik in 'n blog post,

"'N Kategorie kan byvoorbeeld aksieflieks verteenwoordig, met flieks met baie boonste aksie, en stadige flieks aan die onderkant, en ooreenstemmende gebruikers wat aktiewe flieks aan die bokant hou, en diegene wat stadige flieks verkies by die bodem. "

Faktore is kunsmatige kategorieë, wat nie altyd die soort kategorieë waaraan mense sou kon kom nie. Die belangrikste faktor in Funk se vroeë Netflix-model is gedefinieer deur gebruikers wat films soos Pearl Harbor en The Wedding Planner liefgehad het terwyl hulle ook flieks soos "Verlore Vertaal" of "Ewige Sonskyn van die Onbesproke Mind" gehaat het. Sy model het gewys hoe masjienleer korrelasies tussen groepe van mense en groepe films, daardie mense self sal nooit raak nie.

Funk se algemene benadering gebruik die 50 of 100 belangrikste faktore vir beide gebruikers en flieks om 'n ordentlike raaiskoot te maak oor hoe elke gebruiker elke film sal toeken. Hierdie metode, dikwels genoem dimensionaliteitsvermindering of matriksfaktorisering, was nie nuut nie. Politieke wetenskap navorsers het dit getoon Soortgelyke tegnieke wat hoofrol-stemmings gebruik kan die stemme van lede van die Kongres voorspel met 90 persent akkuraatheid. In die sielkunde word die "Big Five"Model is ook gebruik om gedrag voor te stel deur persoonlikheidsvrae saam te voeg wat geneig was om op soortgelyke wyse beantwoord te word.

Tog was Funk se model 'n groot voorskot: dit het die tegniek toegelaat om goed met groot datastelle te werk, selfs diegene met baie ontbrekende data - soos die Netflix datastel, waar 'n tipiese gebruiker slegs enkele dosyn films van die duisende in die maatskappy se biblioteek. Meer as 'n dekade nadat die Netflix-prys wedstryd geëindig het, SVD-gebaseerde metodes, of verwante modelle vir implisiete data, is nog steeds die instrument van keuse vir baie webwerwe om te voorspel wat gebruikers sal lees, kyk of koop.

Hierdie modelle kan ook ander dinge voorspel.

Facebook weet of jy 'n Republikein is

In 2013 het navorsers van die Universiteit van Cambridge, Michal Kosinski, David Stillwell en Thore Graepel 'n artikel gepubliseer oor die voorspellende krag van Facebook-data, die gebruik van inligting wat ingesamel word deur middel van 'n aanlyn persoonlikheidstoets. Hul aanvanklike analise was byna identies aan dié wat op die Netflix-prys gebruik is, deur SVD te gebruik om beide gebruikers en dinge wat hulle "in die top 100-faktore" gehou het, te kategoriseer.

Die koerant het getoon dat 'n faktormodel wat met gebruikers se Facebook-likes gemaak is, alleen was 95 persent akkuraat Deur onderskeid te tref tussen swart en wit respondente, is 93 persentasie akkuraat om mans van vroue te onderskei en 88 persent akkuraat om mense wat gay mans geïdentifiseer het, te onderskei van mans wat reguit geïdentifiseer is. Dit kan selfs Republikeine korrek onderskei van Demokrate 85 persent van die tyd. Dit was ook nuttig, maar nie so akkuraat nie voorspel gebruikers se tellings op die "Big Five" persoonlikheidstoets.

Daar was openbare protes in reaksie; binne weke het Facebook gehad gemaak gebruikers se hou van privaat by verstek.

Kogan en Kanselier, ook navorsers van die Universiteit van Cambridge, het begin met Facebook-data vir verkiesingsgerigte doelwitte as deel van 'n samewerking met Cambridge Analytica se ouersfirma SCL. Kogan het Kosinski en Stillwell genooi om by sy projek aan te sluit, maar dit het nie uitgewerk nie. Kosinski het vermoedelik vermoedelik Kogan en die kanselier gehad het reverse-engineered die Facebook "likes" model vir Cambridge Analytica. Kogan het dit ontken en gesê sy projek "al ons modelle gebou Gebruik ons ​​eie data, versamel met behulp van ons eie sagteware. "

Wat het Kogan en Kanselier eintlik gedoen?

Terwyl ek die ontwikkelinge in die storie gevolg het, het dit duidelik geword dat Kogan en die kanselier inderdaad baie van hul eie data deur middel van die program vir hierdie program opgetree het. Hulle het beslis 'n voorspellende SVD-model soos dié in Kosinski en Stillwell se gepubliseerde navorsing kon opgebou.

So het ek Kogan gestuur om te vra of dit was wat hy gedoen het. Iets wat tot my verbasing, het hy terug geskryf.

"Ons het nie eintlik SVD gebruik nie," het hy geskryf en daarop gewys dat SVD kan sukkel wanneer sommige gebruikers meer "hou" as ander het. In plaas daarvan het Kogan verduidelik: "Die tegniek was iets wat ons eintlik ontwikkel het. Dit is nie iets wat in die publieke domein is nie." Sonder om in besonderhede te gaan, het Kogan hul metode beskryf as 'n multi-stap mede-voorkoms benadering. "

Sy boodskap het egter bevestig dat sy benadering inderdaad soortgelyk aan SVD of ander matriksfaktoriseringsmetodes was, soos in die Netflix-prys kompetisie en die Kosinki-Stillwell-Grappel Facebook-model. Dimensionaliteitsvermindering van Facebook-data was die kern van sy model.

Hoe akkuraat was dit?

Kogan het voorgestel dat die presiese model wat gebruik word, nie saak maak nie, maar wat die saak betref, is die akkuraatheid van sy voorspellings. Volgens Kogan was die "korrelasie tussen voorspelde en werklike tellings ... ongeveer [30 persent] vir al die persoonlikheidsdimensies." In vergelyking is 'n persoon se vorige Big Five-tellings omtrent 70 tot 80 persent akkuraat in die voorspelling van hul tellings wanneer hulle die toets herhaal.

Kogan se akkuraatheid eise kan natuurlik nie onafhanklik geverifieer word nie. En enigiemand in die middel van so 'n hoëprofielskandaal kan aansporing hê om sy of haar bydrae te onderskat. In sy voorkoms op CNN, Het Kogan aan 'n toenemend ongelooflike Anderson Cooper verduidelik dat die modelle eintlik nie goed gewerk het nie.

Aleksandr Kogan beantwoord vrae oor CNN.

Trouens, die akkuraatheid van Kogan-eise lyk effens laag, maar waarskynlik. Kosinski, Stillwell en Graepel het vergelykbare of effens beter resultate gerapporteer, asook verskeie ander akademiese studies met behulp van digitale voetafdrukke om persoonlikheid te voorspel (alhoewel sommige van die studies meer data gehad het as net Facebook "likes"). Dit is verbasend dat Kogan en die kanselier die moeilikheid gaan hê om hul eie eiendomsmodel te ontwerp, as die af-die-rak oplossings net so akkuraat lyk.

Belangrik egter, die model se akkuraatheid op persoonlikheidstellings laat vergelykings van Kogan se resultate toe met ander navorsing. Gepubliseerde modelle met gelykwaardige akkuraatheid in die voorspelling van persoonlikheid is baie meer akkuraat om die demografie en politieke veranderlikes te raai.

Byvoorbeeld, die soortgelyke Kosinski-Stillwell-Graepel SVD-model was 85-persentasie akkuraat in raai-party-affiliasie, selfs sonder om enige ander profielinligting as houers te gebruik. Kogan se model het soortgelyke of beter akkuraatheid gehad. Om selfs 'n klein hoeveelheid inligting oor vriende of gebruikers se demografie te voeg, sal waarskynlik hierdie akkuraatheid bo 90 persentasie verhoog. Raai oor geslag, ras, seksuele oriëntasie en ander eienskappe sal waarskynlik ook meer as 90 persentasie akkuraat wees.

Kritiek, hierdie raai sal veral goed wees vir die mees aktiewe Facebook-gebruikers - die mense wat die model hoofsaaklik gebruik is om te teiken. Gebruikers met minder aktiwiteit om te analiseer is waarskynlik nie in elk geval op Facebook nie.

Wanneer psigografie meestal demografie is

Om te weet hoe die model gebou is, help Cambridge Analytica se oënskynlike teenstrydige stellings oor die rol - of gebrek aan - daardie persoonlikheidsprofiel en psigografie in sy modellering gespeel. Hulle is tegnies in ooreenstemming met wat Kogan beskryf.

'N Model soos Kogan's sal ramings verskaf vir elke veranderlike wat beskikbaar is op enige groep gebruikers. Dit beteken dat dit outomaties sal wees Skat die Groot Vyf persoonlikheid tellings vir elke kieser. Maar hierdie persoonlikheidstellings is die uitset van die model, nie die insette nie. Al die model weet is dat sekere Facebook-houers, en sekere gebruikers, geneig is om saam gegroepeer te word.

Met hierdie model kon Cambridge Analytica sê dat dit mense met 'n lae openheid vir ondervinding en hoë neurotisme identifiseer. Maar dieselfde model, met presies dieselfde voorspellings vir elke gebruiker, kan net so akkuraat beweer dat minder ontwikkelde ouer Republikeinse mans geïdentifiseer word.

Kogan se inligting help ook om die verwarring oor Cambridge Analytica te verduidelik eintlik sy trof geskrap van Facebook data, wanneer modelle gebou uit die data lyk nog steeds om te sirkuleer, En selfs word verder ontwikkel.

Die gesprekDie hele punt van 'n dimensieverminderingsmodel is om die data wiskundig in eenvoudiger vorm voor te stel. Dit is asof Cambridge Analytica 'n baie hoë resolusie foto geneem het, dit verander het om kleiner te wees, en dan die oorspronklike geskrap. Die foto bestaan ​​nog steeds - en so lank as wat Cambridge Analytica se modelle bestaan, doen die data ook effektief.

Oor Die Skrywer

Matthew Hindman, Medeprofessor van Media en Openbare Sake, George Washington Universiteit

Hierdie artikel is oorspronklik gepubliseer op Die gesprek. Lees die oorspronklike artikel.

verwante Boeke

{amazonWS: search index = Boeke; sleutelwoorde = aanlyn privaatheid; maxresults = 3}

enafarzh-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

volg InnerSelf op

Facebook-ikoonTwitter-ikoonrss-ikoon

Kry die nuutste per e-pos

Emailcloak = {af}