Kielimallit ja niiden toimintaperiaate
Kirjoittanut: Markus Sjöberg
Muistutetaan ensin lyhyesti mieleemme, mitä ovat kielimallit. Vaikka edellisessä luvussa perehdyimmekin jo transformer-mallien tekniseen toimintaan, on hyvä tarkastella kielimalleja vielä erityisesti luovan työn käytännön näkökulmasta.
Kielimallit ovat tekoälyn alaryhmä, jotka on suunniteltu ymmärtämään ja tuottamaan kieltä ihmisen kielenkäyttöä muistuttavalla tavalla. Useimmat nykyään käytössä olevat mallit pohjautuvat edellisessä luvussa kuvattuun transformer-arkkitehtuuriin, jonka avulla malli osaa kiinnittää huomionsa tekstin tärkeimpiin osioihin sekä yhdistellä niitä moniulotteisen merkitysten verkoston avulla löytäen todennäköisesti parhaan tuotetun lopputuloksen.
Kielmallien toimintaperiaate perustuu syvään neuroverkkoarkkitehtuuriin, jonka avulla malli yhdistelee moniulotteisessa todennäköisyyksien verkostoissa yleensä sanaa lyhyempien sanan osien (token) suhteita toisiin sanoihin. Se on pohjimmiltaan tilastomatemaattinen malli, joka tuottaa todennäköisyyksiin pohjaten todennäköisimmän yhdistelmän sanojen osia. Malleihin on käytännössä aina lisätty hieman satunnaisuutta, eli mallit eivät tuota jokaisella kerralla samaa vastausta, vaan samankaltaisen, mutta keskenään erilaisen lopputuloksen.

Kielimalleja käytettäessä ei voi ylikorostaa sitä, että kielimallit eivät ymmärrä merkityksessä kuin ihmiset, vaikka ne vaikuttavat tuottavan ymmärrettävää sisältöä. Kielimalli ei myöskään sisäisesti erota, mikä on totta ja mikä ei. Tästä syystä ne voivat tuottaa toisinaan uskottavan tuntuista sisältöä ilman, että se pitäisi lainkaan paikkaansa. Tällaista paikkaansa pitämätöntä sisältöä kutsutaan hallusinoinniksi.
Hallusinointi on yksi kielimallien keskeisistä haasteista luovassa työssä. Kun mallia käytetään faktatiedon tuottamiseen tai tarkistamiseen, sen tuottamaan sisältöön on suhtauduttava kriittisesti. Käyttäjä voi kuitenkin vähentää hallusinointia erilaisilla toimenpiteillä, kuten määrittelemällä tekoälylle tietyn roolin ja tarkoituksen, jonka pohjalta tekoälyn odotetaan toimivan ja antavan vastauksia. Antamalla selkeitä, tarkkoja ja yksityiskohtaisia ohjeita, tekoäly ymmärtää paremmin minkälaisia vastauksia siltä odotetaan, mikä voi vähentää hallusinointia.
Mallin koulutus, hienosäätö ja käyttäminen
Kielimallin tuottamiin vastauksiin vaikuttaa kolme eri vaihetta: koulutus, hienosäätö ja varsinainen mallin käyttö. Koulutusvaiheessa malli koulutetaan valtavalla määrällä tekstidataa, kuten kirjoja, artikkeleita ja internetsisältöä. Tämän vaiheen aikana malli oppii kielen rakenteet, sanastot, lauseopit ja eri tyylilajien ominaisuudet. Mallin esikoulutusprosessissa se pyrkii ennustamaan seuraavaa sanaa pitkissä tekstijaksoissa, minkä avulla se oppii mallintamaan monimutkaisia kielellisiä yhteyksiä, kuten edellisessä luvussa kuvasimme.
Koulutusvaihe vie valtavasti laskentatehoa. Esimerkiksi GPT-4-mallin kouluttaminen on vaatinut arviolta miljoonien eurojen edestä laskentaresursseja. Siksi mallien kouluttaminen on yleensä suurten tekoäly-yritysten tekemä vaihe. Yritykset kuten OpenAI, Anthropic, Meta, Google tai suomalaistaustainen SiloAI luovat perusmallit, joita toiset yritykset tai toimijat voivat käyttää omien tekoälyratkaisujensa pohjana.

Esikoulutuksen jälkeen malli voidaan hienosäätää tarkemmin haluttuja tehtäviä varten, kuten asiakaspalvelukeskusteluihin, koodaamiseen tai luovaan sisällöntuotantoon. Tässä vaiheessa malli voi myös oppia ihmisen asettamien ohjeiden ja esimerkkien perusteella käyttäytymään tietyllä tavalla. Hienosäätövaiheessa käytetään pienempiä datamääriä, kuten vaikkapa vain muutamaa kymmentä sivua tekstiä. Tässä vaiheessa toimijat voivat olla pienempiäkin yrityksiä tai jopa yksittäisiä luovan alan toimijoita, jotka hienosäätävät malleja omiin tarpeisiinsa.
Valmiita malleja voidaan ohjeistaa myös system promptien, eli järjestelmälle tarkoitettujen kehotteiden kanssa. Tämä on tyypillistä silloin, kun luodaan rajapinnan kautta tekoälyratkaisu, jonka halutaan toimivan tietyllä tavalla, mutta ei haluta kouluttaa tai hienosäätää itse kielimallia.
Suurin osa luovan alan toimijoista on kuitenkin lopullisten palvelujen käyttäjiä. Tekoälytyökaluja, kuten kielimalleja pystyy yleensä ohjeistamaan omaan käyttötarkoitukseen sopivasti kehotteiden (promptien) avulla. Generatiiviset tekoälymallit eroavat monista muista luovan alan työkaluista siinä, että niitä käytetään ohjaamalla, kuten keskustelemalla, eikä niiden lopputuloksesta voi koskaan olla täysin varma. Tämä tuo työskentelyyn jatkuvan iteraation ja kokeilun elementin, joka voi olla sekä inspiroiva että toisinaan turhauttava.