Videogeneraattorit ja liikkuvan kuvan generointi

Kirjoittanut: Markus Sjöberg



0:00 / 0:00





Generatiivisten videotyökalujen, kuten RunwayML, Sora, Veo 3 ja Dream Machine, tarjoamien työkalujen, kehitys on avannut ovia uudenlaiselle videotuotannolle. Nämä mallit kykenevät generoimaan liikkuvaa kuvaa tekstikehotteiden perusteella tai muokkaamaan olemassa olevaa videomateriaalia tekoälyn avulla. Ne hyödyntävät monimodaalisia neuroverkkoja, jotka käsittelevät sekä visuaalista että ajallista dataa.

Luovassa työnkulussa videomallit mahdollistavat nopean prototypoinnin ja konseptivideoiden luomisen ilman laajaa tuotantokalustoa. Esimerkiksi elokuvaohjaajat voivat visualisoida kohtauksia ja testata erilaisia ideoita ennen varsinaista kuvausta. Tämä säästää aikaa ja resursseja sekä antaa tilaa luovalle kokeilulle.

Videomallien haasteena on edelleen tekninen rajoitteisuus. Liikkeen luonnollisuus ja kuvien väliset saumattomat siirtymät voivat olla vaikeita saavuttaa. Mallien tuottamille videoille on tyypillistä, että niissä tapahtuu esimerkiksi ihmisten sulautumista toisiinsa, fysiikan kannalta mahdottomia asioita tai muita muutoksia, jotka heikentävät merkittävästi työkalujen käyttömahdollisuuksia.  Lisäksi mallien tuottama resoluutio ei yleensä vastaa ammattilaistasoa. Tästä syystä ne toimivat parhaiten osana hybridityönkulkua, jossa tekoälyn tuottamaa materiaalia yhdistetään perinteisiin tuotantomenetelmiin.

On kuitenkin kaksi aihepiiriä, johon videomallit soveltuvat jo tänä päivänä hyvin. Ensimmäinen on unenomaisten kohtausten tekeminen, koska tällöin muodonmuutokset kesken kohtausta eivät välttämättä häiritse niin paljon kuin normaalisti. Toinen on tekoälyn visualisointi. Jos tekoäly tulee tehdä näkyväksi videomuotoisesti, mikä olisi sen parempi tapa kuin generoida tekoälyllä tekoälylle tyypillistä visuaalista kerrontaa.

Lisäksi on olemassa tiettyjä erityistarkoituksia varten tarkoitettuja liikkuvan kuvan malleja. Tällaisia ovat esimerkiksi puhetta jäljttelevät, eli huulisynkkaan erikoistuneet mallit, kuten HeyGen sekä RunwayML:n Act-One, erikoistehosteiden luontiin tarkoitetut työkalut ja vastaavat.

Kuinka tehdä videoita tekoälyavusteisesti

Videoiden tekemisessä hyödynnetään usein useita eri malleja, sillä toiset mallit soveltuvat paremmin tiettyihin aiheisiin tai kuvatyyleihin kuin toiset. Käytännössä sopiva työkalu kuhunkin tarkoitukseen löytyy kokeilemalla. Jokaisen työkalun toimintaperiaate eroaa hieman toisistaan, mutta käymme seuraavassa läpi yleisimpiä videoiden luomiseen tarkoitettujen tekoälymallien toimintalogiikoita.

Generatiivisia videomalleissa on yleensä toiminnallisuuksia, jotka mahdollistavat videoiden tekemisen tekstistä videoksi, kuvasta videoksi ja videosta videoksi. Monesti on myös mahdollista käyttää näiden yhdistelmiä.

Tekstistä videoksi tapahtuu yleensä kehotteen kirjoittamalla. Kuvauksen kannattaa olla yleensä englanninkielinen. Kirjoita yksityiskohtainen kuvaus sisällöstä ja kohtauksesta. Yleensä kehotteissa kannattaa käyttää elokuvatuotannon sanastoa.Voit mainita polttovälin, kameran suunnan, valaisutyylin ja vastaavia seikkoja määritelläksesi tyyliä. Tällä tavoin ohjaaminen onnistuu mahdollisimman yksityiskohtaisesti. Voit halutessasi pyytää kielimallilta, kuten ChatGPT:ltä apua kehotteen kirjoittamisessa. Alla on esimerkki ChatGPT:n kanssa käydyn suunnittelukeskustelun avulla luodusta kehotteesta, jossa on kuvailtu kohtauksen sisältöä, miljöötä, kameran polttoväli, kamera-ajon tyyli ja valaisu:

Create a hyperrealistic scene in a Finnish forest at sunset, where a young person encounters a bear. Use a 50mm lens with a smooth dolly-in from a wide forest view to the characters standing amidst tall pine trees near a clear stream. Illuminate the scene with soft, diffused golden-hour sunlight, casting dappled shadows and a natural glow. 

Ja tässä on RunwayML:n Gen-3 Alpha -mallilla luotu lopputulos:

Kohtauksen elementit syntyivät kuvauksen mukaan. Kohtaus on selvästi suomalaisen kaltaisessa metsämaisemassa, kuvassa on kirkkaan näköinen puro. Kohtauksessa on myös karhu ja nuori henkilö. Kamera-ajo on kehotteen suuntainen. Toisaalta moni asia on myös toisin kuin kehotteessa: polttoväli muuttuu selvästi kamera-ajon aikana, puut ovat kuusia mäntyjen sijaan. Hyperrealistisuus on kaukana siitä, kuinka poika ilmestyy tyhjästä ja kävelee kohtauksen alussa takaperin. 

Esimerkki kuvastaa hyvin sitä, kuinka tekoälymallit eivät huomioi kaikkia kehotteessa toivottuja asioita. Todennäköisesti kehotetta pitäisi hioa kokeilemalla erilaisia kehoteyhdistelmiä ja tuottamalla useita vaihtoehtoisia videoita. Tästä huolimatta on todennäköistä, että aivan haluttua lopputulosta ei saataisi luotua. 

Seuraavaksi kokeillaan videon tekemistä kuvasta.  Kuvana voi käyttää esimerkiksi valokuvaa tai toisella tekoälytyökalulla luotua kuvaa. Tällä kertaa hyödynnämme Flux AI:ta, joka on kokeiluhetkellä yksi lupaavimmista kuvageneraattoreista. 

Nyt teemme siitä videon RunwayML:llä alkuperäisellä kehotteella. Valitsemme esimerkkikuvamme viimeiseksi ruuduksi. Lopputulos on tällainen:

Lopputulos on selvästi laadukkaampi ja kohtaus vaikuttaa todellisemmalta kuin aikaisempi Runwaylla tehty video.

Kuvan käyttäminen kehotteen osana helpottaa merkittävästi työskentelyä videogeneraattorin kanssa. Kuvia on nopea tehdä, joten erilaisten kuvakompositioiden kokeileminen on nopeampaa ja vaivattomampaa. Jos olisimme olleet erityisen tarkkoja esimerkiksi siitä, että haluamme kuvaan mäntyjä, olisimme todennäköisesti siinä onnistuneet.

Seuraavaksi kokeillaan vielä videosta videoon -generointia. Sillä tavoin voi periaatteessa tuottaa entistä tarkemman kuvauksen halutusta liikkeestä. Yksi käyttötarkoitus on muuttaa todellisen kuvatun kohtauksen sisältöä halutun kaltaiseen suuntaan. Kesäkohtauksesta voi luoda talvisen tai arkisesta ympäristöstä fantasiamaailman. 

Alkuperäinen video:

RunwayML:n avulla generoitu video, jossa on hyödynnetty samaa kehotetta kuin aikaisemmin:

Videogeneraattorit kehittyvät kovaa vauhtia. Esimerkiksi RunwayML:n uusin versio on tätä kirjoitettaessa jo Gen 4, eikä enää Gen 3, jota esimerkeissä käytettiin. Lisäksi markkinoille on tullut monia vielä tehokkaampia työkaluja, kuten Googlen Veo 3, jota pidettiin julkaisuhetkellään parhaana videogeneraattorilla. Tehdään promptin mukainen video myös sen avulla:

Veo 3:n lopputulos on parempi, mutta esimerkiksi kamera-ajoa ei tässäkään nähdä. Videogeneroinnissa on siis ainakin toistaiseksi hyvä suhtautua lopputulokseen avoimin mielin. Vähän samalla tavalla kuin esimerkiksi dokumentaarista videotyötä tekevä henkilö voi tehdä monesti vain karkeita suunnitelmia siitä, mitä todellisuudessa tapahtuu, täytyy generatiiviseen videoon suhtautua samalla tavoin. Generatiiviset työkalut eivät välttämättä tuota haluttua lopputulosta, mutta ne tuottavat sellaista materiaalia, jota hyödyntämällä voi mahdollisesti leikata lopullisen videon – varsinkin jos suunitelmaa on valmis muokkaamaan.

- Luku Content