Wat is diepvideo's en die opsporing van hulle, blink van 'n oog

'N nuwe vorm van verkeerde inligting is gereed om te versprei deur middel van aanlyn gemeenskappe as die 2018 midterm verkiesingsveldtogte verhit. Noem "deepfakes" na die pseudoniem aanlyn rekening wat die tegniek gewild gemaak het - wat sy naam gekies het omdat die proses 'n tegniese metode genaamd 'diep leer' gebruik - hierdie valse video's lyk baie realisties.

Tot dusver het mense diepvideo's gebruik pornografie en satire Om te laat lyk dat bekende mense dinge doen wat hulle normaalweg nie sou doen nie.

Maar dit is amper seker Deepfakes sal tydens die veldtog seisoen verskyn, beweer dat kandidate uitbeeld dinge sê of gaan plekke die werklike kandidaat sou nie.

Dit is Barack Obama - of is dit?

{youtube}cQ54GDm1eL0{/youtube}

Omdat hierdie tegnieke so nuut is, het mense probleme om die verskil tussen regte video's en die diepvideo-video's te vertel. My werk, met my kollega Ming-Ching Chang en ons Ph.D. student Yuezun Li, het 'n manier gevind om Betaal betroubare video's van diepvideo's. Dit is nie 'n permanente oplossing nie, want tegnologie sal verbeter. Maar dit is 'n begin en bied hoop dat rekenaars mense sal help om die waarheid van fiksie te vertel.


innerself teken grafiese in


Wat is 'n 'deepfake'? In elk geval?

Om 'n diepvideo te maak is baie soos om tussen tale te vertaal. Dienste soos Google Translate gebruik masjienleer - rekenaar analise van tienduisende tekste in verskeie tale - na opspoor woordgebruikpatrone wat hulle gebruik om die vertaling te skep.

Diep-algoritmes werk op dieselfde manier: Hulle gebruik 'n tipe masjienleersisteem genaamd a diep neurale netwerk Om die gesigsbewegings van een persoon te ondersoek. Dan sintetiseer hulle beelde van iemand anders se gesig wat analoog bewegings maak. Om so effektief te werk, skep 'n video van die teikenpersoon wat voorkom of sê wat die bronpersoon gedoen het.

Hoe diepvideo's word gemaak.

{youtube}8LhI-e2B8Lg{/youtube}

Voordat hulle behoorlik kan werk, benodig diep neurale netwerke baie broninligting, soos foto's van die persone wat die bron of doel van nabootsing is. Hoe meer beelde gebruik word om 'n diepgevalle-algoritme op te lei, hoe meer realisties sal die digitale nabootsing wees.

Opsporing knipper

Daar is nog steeds foute in hierdie nuwe soort algoritme. Een van hulle het te doen met hoe die gesimuleerde gesigte knip - of nie. Gesonde volwasse mense blink iewers tussen elke 2 en 10 sekondes, en 'n enkele knip vat tussen een-tiende en vier-tiendes van 'n sekonde. Dit is wat normaal sou wees om te sien in 'n video van 'n persoon wat praat. Maar dit is nie wat in baie diepvideo's gebeur nie.

'N Werklike persoon blink terwyl hy praat.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

'N Gesimuleerde gesig flikker nie die manier waarop 'n regte persoon doen nie.

{youtube}EttSA9-YIuI{/youtube}

Wanneer 'n diep-algoritme opgelei word op gesig beelde van 'n persoon, is dit afhanklik van die foto's wat op die internet beskikbaar is wat as opleidingsdata gebruik kan word. Selfs vir mense wat dikwels gefotografeer word, is daar min beelde aanlyn beskikbaar om hul oë toe te laat. Nie net is foto's so skaars nie - omdat mense se oë die meeste van die tyd oop is - maar fotograwe publiseer nie gewoonlik beelde waar die hoofvakke se oë gesluit word nie.

Sonder om beelde van mense te knipperen, is diepgeldalgoritmes minder geneig om gesigte te skep wat gewoonlik blink. Wanneer ons die algehele flikkerende koers bereken en dit vergelyk met die natuurlike omvang, het ons gevind dat karakters in diepvideo's baie minder dikwels in vergelyking met regte mense blink. Ons navorsing gebruik masjienleer aan ondersoek oogopening en sluiting in video's.

Dit gee ons 'n inspirasie om diepvideo's op te spoor. Vervolgens ontwikkel ons 'n metode om vas te stel wanneer die persoon in die video flikker. Om meer spesifiek te wees, skandeer dit elke raam van 'n betrokke video, ontdek die gesigte daarin en soek dan outomaties die oë. Dit gebruik dan 'n ander diep neurale netwerk om vas te stel of die opgespoorde oog oop of naby is, met behulp van die oog se voorkoms, meetkundige eienskappe en beweging.

Ons weet dat ons werk voordeel trek uit 'n fout in die soort data wat beskikbaar is om diepgevraagde algoritmes op te lei. Om te voorkom dat prooi op soortgelyke tekortkominge plaasvind, het ons ons stelsel opgelei op 'n groot biblioteek met beelde van oop en geslote oë. Hierdie metode lyk goed te werk, en as gevolg hiervan het ons 'n oorskrydingskoers van meer as 95-persentasie behaal.

Dit is natuurlik nie die finale woord oor die opsporing van diepgevalle nie. Die tegnologie is verbeter vinnig, en die kompetisie tussen die opwekking en opsporing van valse video's is analoog aan 'n skaakspel. In die besonder kan flikkerende video's gevoeg word deur gesig beelde met geslote oë te gebruik of video-opeenvolgings vir opleiding te gebruik. Mense wat die publiek wil verwar, sal beter vals video's kry - en ons en ander in die tegnologie-gemeenskap sal moet voortgaan om maniere te vind om dit te ontdek.Die gesprek

Oor Die Skrywer

Siwei Lyu, Medeprofessor in Rekenaarwetenskap; Direkteur, Computer Vision en Machine Learning Lab, Universiteit van Albany, Staatsuniversiteit van New York

Hierdie artikel is oorspronklik gepubliseer op Die gesprek. Lees die oorspronklike artikel.

verwante Boeke

at InnerSelf Market en Amazon