,

Interaktiivinen AI-installaatio, Sohjo 2026

Osana LuovAIn! -hankkeen roadshow -kokonaisuutta toteutettiin Joensuun SOHJO 2026 -tapahtumassa työpaja, joka kutsui tapahtuman osallistujat luomaan yhdessä reaaliaikaista, jatkuvasti kehittyvää visuaalista taideteosta tekoälyn avulla. Tässä artikkelissa kerrotaan, miten työpaja toteutettiin teknisesti ja miten tapahtumakävijät sen kokivat.

LuovAIn! Community Art Lab - SOHJO 2026 -tapahtumassa. Kuva: Elsa Melkko
Interaktiivinen AI-installaatio, Sohjo 2026. Kuva: Elsa Melkko

Sohjo 2026 -tapahtumassa heräsi henkiin installaatio, jossa kävijät saattoivat piirtää, soittaa ja astua itse tekoälyn läpi. Installaatio oli kolmen pisteen kokemus: vanha piirtoheitin, MIDI-koskettimet ja valkokangas, kaikki kytkettynä reaaliaikaiseen kuvageneraatioon, tilavalaistukseen ja musiikkiin.

Kokemus

Tilassa oli kolme pistettä, joiden läpi saattoi kulkea omaan tahtiinsa.

Piirtoheitin. Vanha runko, ESP32-mikrokontrolleri ja kamera piilotettu peilin koteloon osoittaen alaspäin, analoginen nappi päällä. Kävijät asettivat piirroksia tai esineitä tasopinnalle ja painoivat nappia. Järjestelmä analysoi kohteen, tuotti siitä kuvauksen ja generoi sen perusteella uuden kuvan reaaliajassa. Toinen työkalu yhdisti alkuperäistä kuvaa ja taustaa ja tuotti hyperrealistisia yhdistelmiä. Nämä toimivat taustana valkokankaan live-kuvalle.

Lisäksi järjestelmä poimi kuvasta dominoivan värin ja lähetti sen suoraan tilavaloille DMX:n kautta. Jokainen piirros tai esine värjäsi kirjaimellisesti koko tilan oman päävärinsä mukaan.

Musiikki. Kaikkien pisteiden yli soi reaaliaikainen musiikki tilaa tukevana kerroksena. Järjestelmä tulkitsi näkemänsä myös äänimaailmaksi ja päivitti sitä jatkuvasti taustalla. Koskettimilla ja kontrollerilla saattoi muokata tilan äänimaailmaa reaaliajassa: ohjata genreä, tunnelmaa, sointujen kirkkautta.

Valkokangas. Kävijä astui kuvaan ja näkyi kankaalla piirtoheitinpöydältä poimitun tyylin värittämänä. Pöydällä olleen piirroksen tai esineen analyysistä syntynyt tyyli heijastui suoraan live-kuvaan. Mitä pöydälle laitettiin, se määräsi miltä kameran edessä seisova näytti.

Reaktioita

Vaikka tekoälykuvat ovat monelle jo tuttuja, live-aspekti teki tästä eri kokemuksen. Se hetki kun oma piirros muuttuu joksikin muuksi silmien edessä, reaaliajassa, on eri asia kuin katsoa valmiita kuvia ruudulta. Teknologia itsessään on jo vanhempaa, mutta liveness teki siitä monelle silti wow-elämyksen.

Moni sanoi ensin, ettei piirrä koska ei osaa. Mutta kun uskaltautui, olikin se iloinen yllätys. Tekoäly ei arvostele inputtia vaan ryhtyy töihin.

Tekijänoikeussuojaukset tulivat vastaan välillä. Eräs osallistuja piirsi Aku Ankan, mutta järjestelmä ei tuottanut Aku Ankkaa. Analyysistä tuli kuvaus geneerisestä ankasta, ja tekoäly piirsi geneerisen ankan. Ankka kyllä, mutta ei se ankka.

Keskustelua tuli myös taiteenalojen ulkopuolelta, pohdittiin mm. mihin kaikkeen vision mallit pystyvät esim. teollisuudessa. 

Järjestelmä

Installaation alla pyöri neljä itsenäistä ohjelmaa, jotka kommunikoivat jaettujen tiedostojen ja OSC:n kautta. 

VisionPrompt kaappaa kamerakuvan ja lähettää sen GPT-4o Vision -analyysiin aina osallistuja painettua nappia. Analyysi tuottaa kohtauskuvauksen, tunnelman, tyyliluokituksen ja tagit, jotka syötetään Stable Diffusion -generointiin. Live-videosyöte kulkee samaan aikaan TouchDesigneriin Spoutin kautta, pakkauksetta, suoraan muistista muistiin.

NanoBanana yhdistää kuvattua kohdetta ja pohjakuvaa Geminin avulla ja tuottaa hyperrealistisia komposiitteja reaaliajassa. Se poimii kuvasta myös dominoivan värin hex-arvona, jonka TouchDesigner lähettää DMX-protokollalla tilavaloille. Lisäksi se kirjoittaa musiikkikuvauksen tiedostoon, josta Lyria sen poimii.

Lyria on reaaliaikainen musiikkigeneraattori, joka lukee VisionPromptin kirjoittamaa musiikkikuvausta ja päivittää äänigeneraation sen mukaan. Genre-sekoitus toimii Gaussisella käyrällä kahdeksan genren yli, käyrä kaventuu reunoilla ja laajenee keskellä, jolloin siirtymät tuntuvat luontevilta. MIDI-koskettimistolta sointulaatu vaikuttaa äänen kirkkauteen: duurisoinnut kirkastuvat, mollisoinnut tummentuvat. Ei tiukkaa musiikkiteoriaa, mutta toimii live-tilanteessa.

TouchDesigner koostaa kaiken yhteen: ottaa vastaan videosyötteet Spoutin kautta, lukee VisionPromptin kirjoittaman JSON-tiedoston ja välittää sieltä poimitun promptin Stable Diffusionille, yhdistää generoidut kuvat ja live-striimin, lukee väriarvon ja ajaa DMX-valaistuksen.

Teknisesti

Ohjelmat eivät puhu suoraan toisilleen. VisionPrompt kirjoittaa analyysinsä JSON-tiedostoon, TouchDesigner lukee sen ja välittää promptin Stable Diffusionille. VisionPrompt kirjoittaa musiikkikuvauksensa samaan tiedostoon, Lyria pollaa sitä kahden sekunnin välein. Spout hoitaa videon siirron ohjelmien välillä pakkauksetta jaetun GPU-muistin kautta, mikä pitää latenssin minimissä.

Tämä tiedostopohjainen arkkitehtuuri on tarkoituksella yksinkertainen. Jokaisen osan voi käynnistää uudelleen tai vaihtaa kesken kaiken ilman että muu hajoaa. Live-tilanteessa se on käytännöllinen valinta.

ESP32 piirtoheittimessä hoiti analogisen napin ja välitti laukaisusignaalin USB-sarjayhteyden kautta. Tila luki ja reagoi: napinpainallus käynnisti analyysin, analyysi päivitti kuvan, kuva päivitti värin, väri päivitti valot. Näin AI poti eräänlaista synestesiaa, mutta AI:n kohdalla se ei ollutkaan aistihavaintojen sekoittumista, vaan aistian luoman inputin prosessointia ilman kokemusta siitä, mitä se käsittelee. Synestesia ilman aistimusta.

Teksti: Ville-Sakari Kotka, Studio Käpynä