Synthetische media: Positieve deepfaking bij videoproductie

Deepfaking oftewel synthetische media valt heel goed te gebruiken voor positieve manipulatie van beeld en geluid. Deze vorm van creatieve artificiële intelligentie is bijvoorbeeld geschikt voor het scheppen van grafisch realistische scènes, lipsynchroon nasynchroniseren in vele talen, het (al of niet holografisch) neerzetten van personen en het uittesten van verschillende verhaallijnen of scenario's. Het tijdperk van synthetische media biedt grenzeloze mogelijkheden en dat scheelt veel tijd en geld.

Alle edities

AV-Entertainment Nr6 2023
AV-Entertainment Nr5 2023
AV-Entertainment Nr4 2023
AV-Entertainment Nr3 2023
AV-Entertainment Nr2 2023
AV-Entertainment Nr1 2023
AV-Entertainment Nr6 2022
AV-Entertainment Nr5 2022
AV-Entertainment Nr4 2022
AV-Entertainment Nr3 2022
AV-Entertainment Nr2 2022
AV-Entertainment Nr1 2022
AV-Entertainment Nr6 2021
AV-Entertainment Nr5 2021
AV-Entertainment Nr4 2021
AV-Entertainment Nr3 2021
AV-Entertainment Nr2 2021
AV-Entertainment Nr1 2021
AV-Entertainment Nr6 2020
AV-Entertainment Nr5 2020
AV-Entertainment Nr4 2020
AV-Entertainment Nr3 2020
AV-Entertainment Nr2 2020
AV-Entertainment Nr1 2020
AV-Entertainment Nr6 2019
AV-Entertainment Nr5 2019
AV-Entertainment Nr4 2019
AV-Entertainment Nr3 2019
AV-Entertainment Nr2 2019
AV-Entertainment Nr1 2019
AV-Entertainment Nr6 2018
AV-Entertainment Nr5 2018
AV-Entertainment Nr4 2018
AV-Entertainment Nr3 2018
AV-Entertainment Nr2 2018
AV-Entertainment Nr1 2018
AV-Entertainment Nr6 2017
AV-Entertainment Nr5 2017
AV-Entertainment Nr4 2017
AV-Entertainment Nr3 2017
AV-Entertainment Nr2 2017
AV-Entertainment Nr1 2017
AV-Entertainment Nr6 2016
AV-Entertainment Nr5 2016
AV-Entertainment Nr4 2016
AV-Entertainment Nr3 2016
AV-Entertainment Nr2 2016
AV-Entertainment Nr1 2016
AV-Entertainment Nr6 2015
AV-Entertainment Nr5 2015
AV-Entertainment Nr4 2015
AV-Entertainment Nr3 2015
AV-Entertainment Nr2 2015
AV-Entertainment Nr1 2015
AV-Entertainment Nr6 2014
AV-Entertainment Nr5 2014
AV-Entertainment Nr4 2014
AV-Entertainment Nr3 2014
AV-Entertainment Nr2 2014
AV-Entertainment Nr1 2014
AV-Entertainment Nr6 2013
AV-Entertainment Nr5 2013
AV-Entertainment Nr4 2013
AV-Entertainment Nr3 2013
AV-Entertainment Nr2 2013
AV-Entertainment Nr1 2013
AV-Entertainment Nr6 2012
AV-Entertainment Nr5 2012
AV-Entertainment Nr4 2012
AV-Entertainment Nr3 2012
AV-Entertainment Nr2 2012
AV-Entertainment Nr1 2012
AV-Entertainment Nr6 2011
AV-Entertainment Nr5 2011
AV-Entertainment Nr4 2011
AV-Entertainment Nr3 2011
AV-Entertainment Nr2 2011
AV-Entertainment Nr1 2011
AV-Entertainment Nr6 2010
AV-Entertainment Nr5 2010
AV-Entertainment Nr4 2010
AV-Entertainment Nr3 2010
AV-Entertainment Nr2 2010
AV-Entertainment Nr1 2010
AV-Entertainment Nr6 2009
AV-Entertainment Nr5 2009
AV-Entertainment Nr4 2009
AV-Entertainment Nr3 2009
AV-Entertainment Nr2 2009
AV-Entertainment Nr1 2009
AV-Entertainment Nr6 2008
AV-Entertainment Nr5 2008
AV-Entertainment Nr4 2008
AV-Entertainment Nr3 2008
AV-Entertainment Nr2 2008
AV-Entertainment Nr1 2008
AV-Entertainment Nr6 2007
AV-Entertainment Nr5 2007
AV-Entertainment Nr4 2007
AV-Entertainment Nr3 2007
AV-Entertainment Nr2 2007
AV-Entertainment Nr1 2007
AV-Entertainment Nr6 2006
AV-Entertainment Nr5 2006
AV-Entertainment Nr4 2006
AV-Entertainment Nr3 2006
AV-Entertainment Nr2 2006
AV-Entertainment Nr1 2006
AV-Entertainment Nr1 2005

Synthetische media: Positieve deepfaking bij videoproductie

Magazines | AV-Entertainment Nr1 2022

Actueel

Synthetische media
Positieve deepfaking bij videoproductie

Deepfaking oftewel synthetische media valt heel goed te gebruiken voor positieve manipulatie van beeld en geluid. Deze vorm van creatieve artificiële intelligentie is bijvoorbeeld geschikt voor het scheppen van grafisch realistische scènes, lipsynchroon nasynchroniseren in vele talen, het (al of niet holografisch) neerzetten van personen en het uittesten van verschillende verhaallijnen of scenario’s. Het tijdperk van synthetische media biedt grenzeloze mogelijkheden en dat scheelt veel tijd en geld.

Tekst: Ulco Schuurmans

Deepfaking is een samentrekking van deep learning (AI machineleren) en faking. De met de computer en software toegepaste AV-technieken zijn levensecht, synchroon (beweging en  geluid) en immersive. Het valt voor de leek niet meer van de werkelijkheid te onderscheiden. Met de term faking kan je twee kanten uit: nabootsen of ronduit vervalsen. Met name dat die laatste insteek heeft nogal veel negatieve aandacht in de pers en bij cybersecurity gekregen. Het opzettelijk negatief manipuleren van personen of gebeurtenissen met het doel om mensen te desinformeren, de opinie te beïnvloeden en schade aan de maatschappij toe te brengen. Een ware vloek bij cybercrime.

Volgens Marketingfacts, dat spreekt van de vierde mediarevolutie, zijn de positieve toepassingen momenteel sterk in opkomst. Er is geen ‘medium’ en geen ‘message’ meer, de realiteit is zelf het medium geworden. Een zege voor de vrijheid bij creatieve ontplooiing. Andere ontwikkelingen in deze zijn deepfaking door influencers en slimme marketingtechnieken waarbij personen zich al of niet met vrienden en bekenden in een vakantieomgeving, nieuw ingericht huis, kledinglijn of een begeerde auto kunnen plaatsen. En in de nabije toekomst wellicht ‘Ontwerp jouw eigen Netflix-serie.’

Belangrijkste trends
We leven inmiddels in het tijdperk van synthetische media. En dan is het fact of fake, zowel ten goede als ten kwade! Wat kan je nu zoal met deepfaking? De belangrijkste trends liggen bij de toepassingsgebieden. Contentcreatie bijvoorbeeld, het creëren van volledig nieuwe en geloofwaardige videoclips en -films. Daarnaast is er het onderling verwisselen van gezichten in video’s. Photoshoppen met filmische koppen. Bij de Harry Potter Films werden zo de originele acteurs door Amerikaanse collega’s vervangen.
Vervolgens het nabootsen en/of genereren van stemmen. Dit zowel bij nasynchronisatie als het mensen geheel andere dingen laten zeggen. Ook kunnen geloofwaardige teksten gegenereerd worden, bijvoorbeeld bij nieuwsbulletins. Maar ook Avatars die de ingevoerde teksten levensecht met alle bijbehorende mimiek en emoties uitspreken. Een bekend voorbeeld in deze is de Dall-E-software van OpenAI.

Tot slot digitale retouche (waarbij je objecten in video of foto volledig wegpoetst) en her-animatie, het volledig opnieuw animeren van gezichten en bewegende personen of objecten.

Futuroloog Amy Webb van het Future To Day Institute sprak in het 2020 Tech Trends Report over synthetische media als de belangrijkste ontwikkeling voor de komende tien jaar. Een gigantische markt, zeker voor de contentindustrie. De BBC noemt synthetische media de toekomst van contentcreatie. Bovendien kan iedereen er mee aan de slag. Zie o.a. de animaties en face switching bij TikTok.

Zeker ook in positieve zin
‘Zien is geloven’, zo luidt de titel van een VPRO-documentaire uit de reeks Tegenlicht. Die laat zien dat je zowat alles geloofwaardig in beeld, woord en geluid kunt namaken. Gelukkig zijn zoals gezegd dezelfde technieken eveneens bruikbaar in positieve zin. Het scheppen van creatieve settings die anders niet of moeilijk realiseerbaar zouden zijn. Het veel werk uit handen nemen bij beeld- en geluidsbewerking. De creatieve mogelijkheden en immersive beleving aanzienlijk vergroten. Geheel zelfstandige AI content creation. Bovendien het veel tijd en geld kunnen besparen en ook heel geschikt zijn voor het uitproberen van verhaallijnen, het onderzoeken van scenario’s en educatieve simulaties.

Tevens wordt deepfaking technologie steeds meer toegankelijk en goedkoper. Daardoor vormt het een nieuwe en snel opkomende trend bij broadcasting, AV-productie, evenementen, gaming, onderwijs en commercials. De laatste tijd opvallende deepfakes waren o.a. het iedereen kan wervelend dansen met deepfake animaties en een valse (This is not) Morgan Freeman (Nederlandse productie van Bob de Jong).

Getrainde neurale netwerken
Bij de toepassing van het realistisch nabootsen van personen is er in de praktijk sprake van een zogenaamd getraind neuronetwerk. D.w.z. het AI-netwerk moet leren (de deep learning) om een breed scala aan gezichtsuitdrukkingen, in allerlei verschillende soorten licht en vanuit elke denkbare hoek, te herkennen. Dit inclusief de bewegingen van de mondmotoriek en ogen. Zo krijgt de kunstmatige intelligentie een diepgaand ‘begrip’ van niet alleen het uiterlijk, maar ook de ‘essentie’ van de persoon in kwestie.

Heeft de de AI het wezen van de desbetreffende persoon onder de knie, dan volgt de koppeling aan geavanceerde computergraphics, audio processing en tracking.  Zo lukt het om een compleet realistisch nagebootste versie in een videoclip te plaatsen. Voorheen kostte dat allemaal veel tijd, geld en een grote hoeveelheid bestaand bronmateriaal. De meest recente versies van deepfake software hebben voldoende aan een handvol sleutelbeelden. Het tot leven wekken van iemand op basis van een schilderij is gewoon mogelijk. Het Samsung AI-lab in Rusland is hier al erg ver mee.

De Metahuman Creator bouwt naar wens levensechte mensen op voor videoproducties en presentaties. Ontwikkelaar Unreal Engine spreekt van High-Fidelity digitale mensen.

Dan zijn er de ‘generative adversarial networks’ (GAN's). Dit zijn twee concurrerende neurale netwerken die met elkaar samenwerken om geheel zelfstandig kunstmatige data te produceren die niet of nauwelijks van echt te onderscheiden zijn. Door elkaar voortdurend terugkoppeling te geven of het eindresultaat wel of niet echt is, blijven ze van elkaar leren. In elke nieuwe ronde wordt weer iets beters ontwikkeld en beoordeeld.

Nasynchronisatie
Een andere neurale techniek is om alleen de mondmotoriek onder handen te nemen en de spraak en/of taal zo aan te passen dat het net echt lijkt wat de persoon in kwestie vertelt. Bekend zijn de deepfakes van Barack Obama die Donald Trump op de korrel neemt, de Marc Zuckerberg deepfaking, een golf spelende Tom Cruise en de Poetin-persiflages.

Adobe heeft daarvoor de eigen VoCo-software ontwikkeld, een soort stem-Photoshop dat nasynchroniseren door acteurs overbodig maakt. Een team van universiteiten van Stanford, Cambridge en London en de Technische Universiteit van München introduceerde onlangs Synthesia software voor ‘gezichts her-animatie’, die geautomatiseerde en zeer overtuigende nasynchronisatie mogelijk maakt. Heel baanbrekend is dat deze technologie het mogelijk maakt automatisch nieuwsberichten te genereren.

Je kunt deze ook nog eens personaliseren voor individuele kijkers/luisteraars. Eveneens geschikt voor trainingsdoeleinden met videomodules in meer dan veertig talen. Snel te ontwikkelen en content is makkelijk en snel te creëren of wijzigen. Met deze technologie kun je ook tekst en slides binnen enkele minuten in videopresentaties omzetten, zonder dat je daar videobewerkingsvaardigheden voor nodig hebt.

Een tweede voorbeeld is Respeecher voor de film- en animatie-industrie. Met slechts een handvol stemfragmenten kan deze software spraak met alle intonaties en emoties aanmaken. Modulate plakt in de module Voicewear de stemmen van spelers op gamefiguren (stemsubstitutie). De Flawless machine learning models focussen uitsluitend op de lipbewegingen en creëren nieuwe perfect vertaalde versies en plakken deze automatisch op het hoofd van de acteur/spreker.

Volledige gesproken tekstgeneratie
Nog verder gaat het taalmodel GPT-3. Het is een AI-systeem dat is getraind om zelfstandig geloofwaardige teksten te genereren. De basis van het systeem is dat de software aan de hand van het vorige woord het volgende woord in een zin kan voorspellen. Zo genereert GPT-3 volledige teksten die lijken op teksten die een mens heeft geschreven. 

Van statisch naar meedenkend creatief
Een bekende spreker en auteur over synthetische media is Jarno Duursma. Hij zegt onder meer: “Nu is videoproductie vaak nog een statisch en lineair proces. Je maakt een video ergens op locatie met een medewerker, acteur, technicus en geluidsman. Een tijdrovend proces. En niet te vergeten: alles moet er in een keer goed opstaan. En daarna is het klaar. Af. In de toekomst wordt dit anders. Wordt het produceren van video veel meer een continu proces. Verandert er inhoudelijk iets? Nieuwe video. Heb je een leuke invalshoek? Nieuwe video!”

En de mee-fantaserende machines: “Synthetische media systemen creëren nieuwe content en scheppen zo nieuwe ideeën. Ze doen oneindig creatieve suggesties - bijvoorbeeld bij het schilderen van een landschap - en maken variaties op onze eigen creatieve input. Of het nu gaat om video, tekst, muziek enzovoort, in de toekomst weten we niet meer of iets is gegenereerd door een computer, is bedacht door een mens of daadwerkelijk heeft plaatsgevonden in de realiteit.”

Volgens Adobe zullen Synthetic Media de manier veranderen waarop we media produceren en consumeren. Dat heeft een schaduwkant die om alertheid vraagt. Maar AI kan ook een bijdrage leveren aan de democratisering van de creativiteit en meer ruimte maken voor experimenten. Met AI zullen individuen in staat zijn om content van hoge kwaliteit te produceren met een minimaal budget. 

Postproduction
Deepfaking brengt tot voor kort ongekende mogelijkheden naar de postproduction. Het gaat daarbij om correctie, aanvulling en complete vervanging van beeld en geluid. Iets vergeten of achteraf blijkt de opname mislukt? Deepfaking komt te hulp. Op basis van het wel correct aanwezige AV-materiaal brouwt de deepfake AI gewoon de ontbrekende fragmenten of zelfs gehele clips op. Dat gaat veel verder dan gewoon wat beelden of een stukje geluid aanvullen. Het betreft echt een geheel nieuwe realistische en waarheidsgetrouwe synthese!
Foutje bedankt? Deepfaking gaat als een ware filmische of audio-editing ‘Photoshop’ aan de slag. Behalve het vlekkeloos wegpoetsen vaak ook nog eens het slim opsporen van de missers in videoclips en podcasts. Scheelt een hoop werk of zelfs het moeten overdoen.

Bekend van deepfake is de digitale retouche met ‘hoofdje plakken’ oftewel ‘face swapping’. Dat houdt veel meer in dan alleen een andere kop erop. Het nieuwe hoofd past zich volledig aan op het andere lichaam. Gedraagt zich net zo en volgt alle bewegingen en mimiek. Nog een stem erbij en het is helemaal (fake) echt. De porno-industrie had dat al in 2017 door.

Het aanpassen van de scenery is een kolfje naar de content-hand van deepfaking. Bij de postproduction kan deze software bijvoorbeeld aanpassen: de tijd (zowel uur als periode), de lichtval, het seizoen, weersomstandigheden, wolkenluchten, zichtbare hemellichamen en het complete landschap of stadsbeeld. Zelfs de etniciteit van de acteurs wijzigen behoort tot de opties. Audiodubbing naar meerdere talen werd al genoemd. Daarnaast ook geautomatiseerde voice-overs en in gesproken woord vertalen van ingetypte scripts. Zo verzorgt XS2RADIO bijvoorbeeld neen geautomatiseerde voice-over voor Shownieuws (Talpa Network).

Zelfstandige content production
Fake AI kan in principe zelfstandig compleet nieuwe videoclips of films en commercials vervaardigen in tientallen talen en met andere casts. Hetzelfde voor audiocomposities en sound landscaping. Voer de basiscontent in en de AV-bot gaat lekker fakend aan de slag. Dit m.b.v. aanwezige algoritmen en/of enige menselijke regie van buitenaf.

Rephrase maakt zelfstandig videopresentaties. Een soort visual dubbing tool. Hier is uiteraard de nodige discussie over. Wordt het niet allemaal te fake in plaats van fact? Waar blijft de creativiteit? Daartegenover staan de kostenbesparing, snelle levertijd en grote mate van diversiteit.

Niet in levende lijve aanwezig
Er is een hele contentindustrie ontstaan omtrent het realtime live tonen van personen die op dat moment niet fysiek in de videoscène aanwezig zijn. We geven een viertal voorbeelden van deze deepfaking-tak. Als eerste een inmiddels overleden persoon. Dat kunnen zijn artiesten, historische figuren en niet meer in in leven zijnde dierbaren. Van fameuze gestorven artiesten bestaat vaak al veel beeld- en geluidsmateriaal. Voer deze content aan deepfake AI en je kunt hen weer opnieuw net als vroeger (of zelfs in een modern jasje) laten optreden. Dit al of niet met (tracking) interactie tussen levende andere artiesten, fans en presentatoren.

Real life geanimeerde historische figuren zijn populair bij musea, games en re-enactment-producties. Een bewoner van Pompeï die de bezoekers meeneemt door de straten van de door de vulkanische uitbarsting bedolven stad. Rembrandt die het museumpubliek laat zien hoe hij schilderde. 

In entertainmentparken kan je de verklede acteurs van de kinderhelden vervangen door geprojecteerde deepfakes. Voor de uitvaartindustrie kan je later de dierbare overledenen weer tot virtueel leven wekken en zelfs met hen spreken. Dat helpt bij de rouwverwerking. Het produceren van de nagedachtenis-AI kan met materiaal uit het verleden of speciaal daartoe voor het overlijden opgenomen content.

In geval van re-enactment komen de historische figuren realistisch tot leven in nieuw geproduceerde film. Een ander voorbeeld van nagedachtenis  AI-generated video’s is dat van de University van Southern California Shoah Foundation, met meer dan 55,000 video testimonials van Holocaust overlevenden.

Als tweede het op afstand aanwezig zijn. Al gangbaar is het inzetten van hologrammen. Dat vereist dat de desbetreffende persoon wel op afstand in een opnamestudio zit. Met deepfake kan je die fase overslaan. Eerder opgenomen materiaal wordt gewoon in de uitzending gelast. Op zodanige wijze dat de persoon in kwestie realtime acteert met de andere aanwezigen, antwoordt en beweegt (motion tracking) zoals verwacht, plus de juiste mimiek en emoties toont. Heel geschikt voor simulaties, productdemonstraties, publieks- en politieke campagnes (binnenkort de gemeenteraad). Bij acteurs kun je gebruik maken van deepfake twins, de altijd inzetbare dubbelganger, en voice cloning voor de stemmen. Die hoeven dan niet altijd lijfelijk aanwezig te zijn, onnodige reis- en verblijfskosten te maken en risico's (stunts, gevaarlijke omgeving) te lopen. Bedrijven als Shutterstock streven er al naar om dit type content op voorraad te hebben.

Ten derde de gaming industrie. Vanuit bestaande of voor geacteerde content maakt de AI-spelengine realistische gamefiguren die niet onderdoen voor hoogwaardig geanimeerde grafische typetjes en avatars.

Als vierde en overtreffende trap het Holodeck uit Star Trek. Dat is binnenkort geen sciencefiction meer. Hier vinden deepfaking en hoogwaardige projectmapping met realistische hologrammen elkaar. Compleet met haptische en sensorische ervaringen.

Simulaties
Het simuleren van educatieve, trainings- of therapeutische settings vormt een ideaal toepassingsgebied voor deepfaking AI. Een soort ‘super flightsimulator” op allerlei gebied. Ziet zo’n vluchtsimulator er nogal grafisch uit, de deepfake simulatiewereld valt nauwelijks van de werkelijkheid te onderscheiden. De beelden, het geluid en interactieve respons zijn uiterst realistisch. Ook werkt het niet meer met avatars, maar met echte (weliswaar fake) individuen.

Er zijn legio voorbeelden. Het sleutelen aan techniek, het doen van proeven, het besturen van voertuigen, groepsgesprekken, colleges, seminars, cursussen, leren muziek spelen, interactie met andere personen uitproberen, het laten zien en beleven van de gevolgen van de klimaatcrisis met verlies aan biodiversiteit, ziekten inzichtelijk maken etc. etc. Het bijwonen van dergelijke deepfake-sessies scheelt tevens flink wat tijd, geld en risico’s.

Door het realistische immersive belevingsgehalte zijn de kennisoverdracht en het opdoen van bruikbare ervaring relatief hoog. Een ander voorbeeld is de Emmy Award-winnende film In Event of Moon Disaster van het MIT Center for Advanced Virtuality production. Een realistische fake van een mislukte Apollo 11-missie.

Is deepfaking nu een zegen of vloek voor de content- en media-industrie? Zolang je het positief inzet kent het vele voordelen op het gebied van creativiteit, distributie in meerdere talen, het tot leven brengen van eerder materiaal, retouche en foutcorrectie. Misbruik loert echter om de hoek en dat is een kwestie van integriteit voor de makers.
 

Facebook

Aanbevolen

Gratis AV & Entertainment ontvangen

Vul hier uw emailadres in en u wordt op de hoogte gehouden van de laatste nieuwtjes op AV gebied én ontvangt tevens de gratis digitale editie van AV & Entertainment