CNN, GAN-mallit ja tekoälytaiteen varhaiset vaiheet
Kirjoittanut: Markus Sjöberg
Generatiivisen kuvia luovan tekoälyn kehityspolku ei alkanut nykyisin yleisistä diffuusiomalleista, vaan sen taustalla oli useita kokeiluja ja välivaiheita. Ensimmäiset laajasti näkyvät esimerkit syntyivät konvoluutioneuroverkkojen (CNN) pohjalta. Google DeepDream (Mordvintsev ym. 2015) teki koneen “hallusinaatiot” näkyviksi: valokuvien pinnalle alkoi ilmestyä koirankasvoja, silmiä ja outoja rakenteita, kun verkkoa yliviritettiin korostamaan oppimiaan piirteitä.. Pian tämän jälkeen esitelty neural style transfer (Gatys ym. 2015) mahdollisti kuvan sisällön ja toisen kuvan tyylin yhdistämisen. Näiden tekniikoiden sovellukset synnyttivät ensimmäisen varsinaisen tekoälytaidebuumin ja toivat teknologian suuren yleisön ja taiteilijoiden tietoisuuteen.

Generative Adversarial Networks (GANs) -mallit olivat seuraava läpimurto generatiivisen tekoälyn kehityksessä. Niiden keskeinen innovaatio oli asettaa vastakkain kaksi neuroverkkoa, generaattori ja diskriminaattori. Menetelmällä pystyi tuottamaan yhä realistisempia kuvia. Generaattori tuottaa arvionsa siitä, miltä aito data voisi näyttää, ja diskriminaattori yrittää tunnistaa, onko kyseessä oikea vai generoitu aineisto. Tämä asettelu edistää molempien verkkojen kehittymistä: generaattori oppii yhä uskottavampia tapoja imitoida aitoa dataa, kun taas diskriminaattori hioutuu entistä paremmaksi väärien havaitsemisessa. (Goodfellow ym. 2014.)
GANien avulla pystyttiin luomaan fotorealistisia kasvoja ja esineitä, ja niistä syntyi myös uudenlaista tekoälytaidetta. Kuuluisin esimerkki oli ranskalaisen kollektiivin Obviousin Edmond de Belamy (2018), joka myytiin Christie’sin huutokaupassa ja herätti keskustelua algoritmien roolista taiteen tekijänä (Ks. lisää tapauksesta esim. Wikipedia-artikkelista). GANit jäivät kuitenkin taidekentällä rajalliseen käyttöön: ne vaativat runsaasti laskentatehoa ja teknistä osaamista, niiden ohjailu oli vaikeaa, ja ne tarjosivat lähinnä yksittäisiin genreihin (kuten kasvoihin) keskittyviä tuloksia. Toisin kuin CNN-pohjaiset sovellukset, GANit eivät koskaan levinneet laajaksi ilmiöksi luovien tekijöiden arjessa. Tunnetuimpia teknisiä kehitysaskelia oli StyleGAN, joka teki synteettisistä kasvoista lähes täydellisen uskottavia (Karras ym. 2019).

GAN-järjestelmien historiallinen merkitys oli osoittaa, että tietokone voidaan opettaa tuottamaan uutta ja uskottavaa aineistoja. Ne haastoivat rajaa valokuvan ja tietokoneen tuottaman kuvan välillä. Silti varsinainen kynnys generatiivisen kuvan valtavirtaistumiseen ylittyi vasta diffuusiomallien ja transformerien myötä, joita käsittelemme seuraavissa luvuissa.