Kuvia generoivat tekoälymallit luovat (melkein) aina uutta

Kirjoittanut: Markus Sjöberg

Voiko tekoäly tuottaa täysin samankaltaisen kuvan kuin aineiston lähtökuva? Periaatteessa se on mahdollista, mutta se on yhtä epätodennäköistä, kuin se, että tuottaisit maalaamalla täysin identtisen kuvan jonkun toisen kuvan kanssa. Tekoälymallit myös harvoin tuottavat itsensä kanssa aivan identtisiä kuvia. Tämä johtuu diffuusion hyödyntämisestä osana kuvien luomisprosessia. 

Diffuusiomallit eivät luo suoria kopioita koulutuksessa käytetyistä kuvista, koska niiden toiminta perustuu abstrahointiin eikä yksittäisten kuvien tallentamiseen. Abstrahointi tässä kontekstissa tarkoittaa sitä, että malli oppii havaitsemaan ja käsittelemään laajoja kuvioita, kuten muotoja, värejä, tekstuureita ja suhteita. Malli oppii yleistämään, että vuoristo sisältää huippuja, kivisiä rakenteita ja mahdollisesti lunta. Koulutusdatan perusteella luodaan matemaattisia malleja sen sijaan että tallennettaisiin tarkkoja kopioita yksittäisistä kuvista. 

Abstraktien piirteiden oppimisen ja käyttämisen lisäksi kuvat generoidaan satunnaiskohinasta, joka lähtökohtaisesti varmistaa, että tulos on ainutlaatuinen. 

Ymmärtääksemme diffuusiomallien toimintaa, voimme lähteä liikkeelle kohinasta. Jokaiselle valokuvia ottaneelle on tuttu ilmiö, että kuviin ilmestyy kohinaa, siis erivärisiä pisteitä, kun valaistusolosuhteet käyvät vaikeiksi. Kohina on kuvissa usein epätoivottavaa, ja siksi sen poistamiseen on kehitetty erilaisia algoritmeja. Kuvia generoivat diffuusiomallit ovat hieman samankaltaisia. Niitä on opetettu luomalla tarkkoihin kuviin kohinaa niin, että alkuperäistä kuvaa ei enää tunnista. Kun tämä on käännetty toisin päin, on lopputuloksena malli, joka kykenee tarkentamaan sellaisiakin kuvia, joista ei ole nähtävissä alkuperäistä kuvaa.

Kuvan generointiprosessi toimii seuraavasti: Ensimmäisenä kuva-alalle luodaan satunnaisesti tuotettuja erivärisiä pisteitä. Näistä pisteistä tekoälymalli pyrkii tuottamaan tarkempia kuvia tunnistamalla niistä tuttuja elementtejä. Kerta kerralta kuva tarkentuu paremmaksi. Käyttäjä näkee osan näistä vaiheista monissa kuvageneraattoreissa, kuten Midjourneyssa. Koska prosessin lähtökohdat ovat jo lähtötilanteessa satunnaistettuja, ei suoran kopion tuottaminen ole käytännössä mahdollista. Diffuusiota voidaan käyttää muissakin tapauksissa kuin vain kuvissa. Esimerkiksi osa ääntä generoivista malleista hyödyntää diffuusioteknologiaa.

Onko tekijänoikeuksia siis mahdollista rikkoa tekoälymallien avulla luodulla sisällöllä? Lähtökohtaisesti on epätodennäköistä, että tulisit vahingossa tuottaneeksi tekijänoikeuksia rikkovia sisältöjä. Mahdotonta se ei kuitenkaan ole. Monissa tekoälytyökaluissa on tuotettu rajoituksia tekijänoikeudellista sisältöä muistuttavan sisällön luomiselle. Esimerkiksi musiikkigeneraattori Udio ei salli käyttäjän käyttää kehotteissaan artistien nimiä, vaan se korvaa artistin nimen artistin musiikkityylillä. Samoin useimmat kuvageneraattorit kieltäytyvät tekemästä Mikki Hiiren kaltaisia tekijänoikeuksien alaisia kuvia. Kuvitellaan kuitenkin, että käyttäisit rajoittamatonta työkalua, kuten jotain Stable Diffusionin versiota ja onnistuisit luomaan kuvan Mikki Hiirestä, olisi tällöin periaatteessa mahdollista rikkoa tekijänoikeuksia, jos julkaisisit kuvan Disneyn nykypäivänä käyttämästä Mikki Hiiri -hahmosta. Toisaalta pystyt tekemään saman myös lyijykynän ja ruutuvihkon avulla, jos vähän harjoittelet.

Tekoälytyökalut ovat siis kaikesta taianomaisuudestaan huolimatta samankaltaisia työkaluja kuin lyijykynä. Niitä voidaan käyttää monenlaiseen sisältöön, jopa tekijänoikeuksia rikkovaan kopiointiin, mutta toisaalta niin voidaan käyttää myös mitä tahansa muuta luovan työn välinettä.

Alkuperäisen Mikki Hiiren tekijänoikeudet ovat muuten tarkkaan ottaen jo vanhentuneet, joten Mikki Hiiriä pitäisi siinä mielessä pystyä luomaan myös tekoälytyökaluja. Työkalujen sisäiset rajoitteet ovat mielenkiintoinen aihe, jota käsittelemme eettisiä kysymyksiä -osiossamme.