Musiikki- ja äänimallit

Kirjoittanut: Markus Sjöberg

0:00 / 0:00

Musiikkimallit, kuten Suno AI ja Udio pystyvät tuottamaan täysiä musiikkikappaleita pelkän tekstipohjaisen kehotteen perusteella.

Musiikkimallien teknisistä ratkaisuista ei ole saatavissa yhtä tarkkaa tietoa kuin esimerkiksi kuvamallien ja kielimallien kohdalla, mutta myös musiikkimallit hyödyntävät diffuusiota ja transformereita. Tämä tarkoittaa, että musiikkia ei yleensä tuoteta soitin kerrallaan, vaan koko kappale syntyy kohinaa poistaen. Menetelmä on hyvin erilainen kuin silloin, jos musiikki luotaisiin soitin kerrallaan soittamalla.

Sekä Sunon että Udion käyttäminen on yksinkertaista. Työkaluja ohjataan tekstipohjaisesti kertomalla, mitä niiden halutaan generoivan. Palveluissa voi luoda tarkempia

Kuten muutkin generatiiviset mallit, myös musiikkimallit tuottavat nopeasti suuren määrän erilaisia versioita. Ne voivat toimia luonnoksina, joita ammattilainen voi muokata ja kehittää eteenpäin. Tai ne voivat olla jo suoraan käyttövalmiita ääniraitoja. Esimerkiksi peliteollisuudessa ja videotuotannoissa voidaan nopeasti luoda taustamusiikkia tai äänimaisemia, jotka räätälöidään kehotteiden avulla tuotannon tunnelmaan sopiviksi.

Musiikkimalleja koskettaa sama haaste kuin muitakin generatiivisia työkaluja. Kontrollin määrä on suppea, ja pääosin kappaleiden tekeminen tapahtuu tekstikehotteilla, ei esimerkiksi äänellä.

Kappaleen tekeminen tapahtuu kuvailemalla tyylilajia. Kappaleisiin on mahdollista kirjoittaa myös sanat. Lausuminen jopa suomeksi onnistuu yllättävän hyvin palveluissa käytetyiltä malleilta, joskin välillä läpi kuuluu koulutusaineiston vahva painotus englanninkieliseen musiikkiin.

Musiikkigeneraattorit pystyvät generoimaan sanoja myös promptin perusteella, mutta yleensä tällöin sanoituksista tulee hyvin keskinkertaisia. Käytännössä kielimallien, kuten Clauden tai Geminin käyttäminen on sanoituksia tehdessä järkevää, jos sanoja ei halua kirjoittaa itse.

Palveluntarjoajat ovat kuitenkin laajentaneet muokkausmahdollisuuksia, kuten oman äänen tuomisen generatiivisen prosessin lähtökohdaksi ja inpaint-toiminnallisuuksia, jolla kappaleen sisällä olevia yksityiskohtia voidaan muokata uudestaan.

Lisäksi entistä useammin palvelut tarjoavat mahdollisuuden irrottaa soittimet ja laulu omille raidoilleen. Esimerkiksi Sunossa on nykyisin ominaisuus, jonka avulla ääniraidat voi tallentaa myös midi-muotoon. Tällöin generoitujen kappaleiden muokkausmahdollisuudet muuttuvat liki rajattomiksi, eikä erontekoa generoidun ja perinteisesti tuotetun musiikin välillä ole kovinkaan helppoa tehdä.

Tunnetuimpien musiikkigeneraattoreiden Sunon ja Udion lisäksi on myös monia muita tapoja generoida musiikintuottamisessa hyödyllisiä elementtejä. Jopa ChatGPT:n avulla voi luoda midi-tiedostoja. Omaan tarkoitukseesi sopivimpia työkaluja löydät Googlen avulla tai pyytämällä kielimalleja etsimään niitä sinulle.

Alla Sunolla tehty kappale, joka on tehty pyytämällä Claudelta kappaleen sanat tämän aiheen tekstin perusteella.

Äänimallit

Ääntä tuottavat tekoälypalvelut, kuten tunnetuimpana ElevenLabs, tuottavat luonnollisen kaltaista puhetta tekstistä. Ne pystyvät tuottamaan puhetta, joka sisältää inhimillisiä piirteitä kuten intonaation ja tunnesävyt.

Luovassa työnkulussa äänimallit voivat toimia äänikirjojen lukijoina, virtuaaliassistenttien ääninä tai elokuvan kertojina. Ne mahdollistavat nopean iteroinnin ja erilaisen äänisisällön testauksen ilman tarvetta käyttää ääninäyttelijöitä jokaiseen kokeiluun.

Haasteena on kuitenkin autenttisuuden puute. Vaikka mallit ovat kehittyneet, ne eivät aina pysty täysin jäljittelemään inhimillisiä tunteita ja hienovaraisia vivahteita. Toisaalta eri työkalut auttavat aidonkuuloisen lopputuloksen tuottamisessa. Esimerkiksi ElevenLabs tarjoaa työkaluja, jossa puhuttu ääni muutetaan toiseksi, mutta rytmi ja äänenpainot säilytetään. Parhaimpaan lopputulokseen voi olla useita eri reittejä.

Palveluilla pystyy myös kopioimaan vaikkapa oman äänensä, jonka jälkeen sitä voi käyttää tekstistä ääneksi -toiminnallisuuden avulla. Tällä tavalla

Vaikka äänen kopiointi on periaatteessa helppoa, on syytä Äänimalleissa juridinen kysymys liittyy ennen kaikkea henkilön suojaan. Suomessa ihmisen ääntä voidaan pitää henkilötietona, jos se voidaan yhdistää tunnistettavaan henkilöön. Tekoälyllä tuotettu äänikloonaus ilman lupaa voi loukata henkilön yksityisyyttä ja oikeutta omaan ääneensä. Se voi rinnastua myös hyvän tavan vastaiseen menettelyyn tai jopa identiteettivarkauteen, jos ääntä käytetään harhaanjohtavasti. Suomessa myös markkinointikäytössä henkilön ääni rinnastuu usein henkilön kuvaan: sen käyttö vaatii aina luvan.