Generatiivisen tekoälyn maaginen tausta – sukellus tekniikkaan
Kirjoittanut: Markus Sjöberg
Tässä osiossa syvennytään tarkastelemaan generatiivisen tekoälyn teknisiä ominaisuuksia. Vaikka luovan alan toimijan ei välttämättä tarvitse olla tekoälyratkaisujen tekninen asiantuntija, auttaa perusymmärrys teknologisista ratkaisusta hahmottamaan myös sitä, millaiseen käyttöön tekoälytyökalut soveltuvat ja missä niiden rajat kulkevat. Perusasioiden ymmärtäminen tarjoaa myös vastauksia monia askarruttaviin kysymyksiin, kuten siihen, onko generatiivisella tekoälyllä tuotettu sisältö kopio jostain netissä olevasta vai vai jotain aivan uutta. Voimme vastata tähän jo nyt lyhyesti, että generoitu sisältö ei ole lähtökohtaisesti kopiota, mutta siihen on muutama poikkeus. Niitä käsittelemme tämän luvun aikana. Keskitymme tässä luvussa etenkin generatiiviseen tekoälyyn. Jos haluat uppoutua syvemmälle tekoälyn perusperiaatteisiin, suosittelemme Helsingin yliopiston kurssia The Elements of AI.
Generatiivisen tekoälyn ytimessä ovat syväoppiminen ja neuroverkot, jotka mahdollistavat uuden sisällön luomisen olemassa olevien tietoaineistojen pohjalta. Vaikka termi ”generatiivinen tekoäly” sisältää ajatuksen uuden aineiston tuottamisesta, teknologia kytkeytyy vahvasti laajempiin tekoälyn ja koneoppimisen periaatteisiin. Se nojaa erityisesti syväoppimisen keskeiseen ideaan: järjestelmä oppii datasta hahmottamaan erilaisia rakenteita ja kuvioita, joita se voi hyödyntää rakentaakseen täysin uusia, aiempaan aineistoon perustuvia ilmiöitä.
Syväoppiminen matkii ihmisaivojen tapaa prosessoida tietoa, käyttäen laskennallisia verkkoja, joita kutsutaan neuroverkoiksi. Neuroverkot koostuvat lukuisista toisiinsa kytkeytyneistä kerroksista, joista jokainen käsittelee tietoa yhä abstraktimmalla tasolla (Goodfellow ym. 2016). Käytännössä tämä tarkoittaa esimerkiksi sitä, että ensimmäiset kerrokset voivat oppia tunnistamaan yksinkertaisia muotoja, kun taas ylemmät kerrokset yhdistelevät niitä monimutkaisemmiksi rakenteiksi. Kun tällainen verkko altistetaan suurille tietomäärille, se voi muodostaa melko tarkan ymmärryksen – vaikkakin kapeasti rajatun – siitä, millaisia tyylillisiä tai sisällöllisiä piirteitä aineistossa esiintyy.

Generatiivisen tekoälyn taustalla on pitkä tekoälytutkimuksen historia, jossa on etsitty tapoja saada järjestelmät toimimaan yhä enemmän inhimillisen päättelyn kaltaisesti (Russell & Norvig, 2013). Tekoäly ei kuitenkaan ole yksi ainoa menetelmä, vaan se sisältää laajan kirjon tekniikoita koneoppimisesta symboliseen käsittelyyn. Koneoppiminen on noussut yhdeksi keskeisimmäksi lähestymistavaksi, koska siinä järjestelmät parantavat suorituskykyään kokemuksen eli datan avulla (Jordan & Mitchell, 2015). Erityisesti syväoppiminen on avannut uusia mahdollisuuksia tuottaa omaperäistä sisältöä, kuten tekstiä, kuvia tai jopa musiikkia.
Neuroverkkojen toiminta perustuu matemaattisiin painotuksiin ja yhteyksiin verkon solmujen välillä. Kun verkkoa opetetaan suurilla datamassoilla, se ”virittää” näitä painotuksia yhä tarkemmiksi, jolloin se oppii toistamaan tunnistamiaan rakenteita uudelleen luovalla tavalla (LeCun, Bengio & Hinton, 2015). Kuvan tunnistamisen kohdalla tämä voi tarkoittaa, että malli oppii erottamaan koiran kissasta. Generatiiviseen luonteeseen lisätään vielä kyky luoda jotain uutta: esimerkiksi malli voi tuottaa täysin uudenlaisen kuvan, joka yhdistelee eri eläinlajien piirteitä. Samankaltaista periaatetta sovelletaan tekstin tuottamiseen, puheen synteesiin ja jopa videoiden generointiin.
Samalla on syytä muistaa, että tekoäly, mukaan lukien generatiivinen tekoäly, ei sinänsä ”ymmärrä” maailmaa ihmisen tavoin. Se toimii aina niissä rajoissa, jotka koulutusdata ja sen opetusprosessit sille asettavat (Goodfellow ym. 2016). Tämän vuoksi generatiivinen malli ei ole välttämättä tietoinen ”ideoistaan” tai niiden konteksteista: se luo uusia yhdistelmiä todennäköisyyksiin perustuen. Lopputulos voi olla luovaa tai yllättävää, mutta sen taustalla ovat aina matemaattiset riippuvuudet, jotka malli on havahtunut tunnistamaan datasta.
Näin ollen generatiivinen tekoäly tuo tehostetun ulottuvuuden moniin käytännön sovelluksiin. Se ei ainoastaan pysty tunnistamaan tai luokittelemaan aineistoa, vaan myös tuottamaan sitä. Esimerkiksi tekstin puolella tämä näkyy monenlaisina luovan kirjoittamisen työkaluina, ja kuvien saralla erilaisten kuvitusten tai konseptitaiteen synnyttämisenä. Kehittäjät yhdistävät syväoppimisen menetelmiä muihin tekoälyn osa-alueisiin luodakseen entistä kehittyneempiä järjestelmiä, jotka venyttävät rajoja aina yksinkertaisista tekstin täydennyksistä hyperrealistisiin kuvasukupolviin.

Käsittelemme tässä luvussa erilaisia teknologioita, jotka ovat generatiivisen tekoälyn ytimessä. Yksi varhaisimmista generatiivisista menetelmistä oli Generative Adversarial Networks (GANs), joita käytettiin erityisesti realististen kuvien luomiseen. GAN-mallissa kaksi tekoälyä, generaattori ja diskriminaattori, toimivat yhdessä: generaattori yrittää luoda uutta sisältöä, kuten kuvia, ja diskriminaattori arvioi, kuinka lähellä ne ovat aitoa. Tämä ”kilpailuasetelma” parantaa generaattorin kykyä luoda sisältöä, joka näyttää ihmisen silmään realistiselta. Esimerkiksi monet kuuluisat tekoälyn luomat muotokuvamaalaukset, kuten Edmond de Belamy (Christie’sin huutokaupassa myyty tekoälyn tuotos), perustuvat GAN-tekniikkaan.
Suurten kielimallien, kuten ChatGPT:n tai Googlen Geminin, taustalla oleva teknologia perustuu transformer-arkkitehtuuriin, joka mullisti tekoälykehityksen (Vaswani et al., 2017). Transformerit käyttävät niin sanottuja huomio-mekanismeja, joiden avulla ne voivat keskittyä ymmärtämään ja tuottamaan monimutkaisia riippuvuuksia tiedon eri osien välillä. Tämä mahdollistaa esimerkiksi tekstin tuottamisen, joka on paitsi kielellisesti johdonmukaista myös ideatasolla loogista.
Transformereiden merkitys ulottuu myös kuvien generointiin. Esimerkiksi ChatGPT:n käyttämä DALL-E luo kuvia tekstikuvauksen perusteella. Jos pyydät tekoälyä piirtämään ”koiran, joka istuu sateenvarjon alla avaruudessa”, transformer-arkkitehtuuri käyttää oppimaansa yhdistääkseen pyydetyt elementit kuvaksi. Kuvien, videoiden ja äänen kohdalla on myös hyvä keskittyä diffuusion perusperiaatteisiin, jotka avaavat sitä, kuinka uusia kuvia voidaan tarkentaa satunnaisesta kohinasta.