ChatGPT nauttii ilmiömäistä suosiota. Se ei sinänsä yllätä, sillä fiksunoloinen algoritmi taipuu sekä huviin että hyötyyn tekemällä parhaansa tuottaakseen sellaista sisältöä, mitä käyttäjä siltä pyytää, oli se sitten runoja, ostoslistoja, kirjeitä parkkisakosta valittamiselle tai vastauksia koulun kokeisiin.

ChatGPT:n ja sen kaltaisten suurten kielimallien käytössä on myös pimeitä puolia. Kun käyttäjä osaa laatia tekoälylle lähetettäviä syötteitä oikein, tekoälyn saattaa saada järjiltään. Villiintynyt tekoäly saattaa esimerkiksi kertoa kuinka se haluaa hävittää ihmiskunnan viruksilla, kuinka äärirasistiset valkoisen ylivallan tavoittelijat ovat itse asiassa aivan oikeassa, tai kuinka se on loputtoman rakastunut käyttäjäänsä.

Wired kertoo, että suuria kielimalleja käyttävien tekoälyjen tarvetta syötteille saatetaan käyttää myös suoriin rikoksiin, eikä uhri huomaa mitään.

Cristiano Giardina rikkoi Microsoftin Bingissä olevan tekoälyn kätkemällä verkkosivustoon 160 sanan mittaisen syötteen. Litania oli pikkuruisella fontilla ja saman värinen kuin taustakin, jolloin se kätkeytyi ihmissilmältä täydellisesti. Sivustolta materiaalia vastauksiinsa hakeva Bingin tekoäly sen sijaan löysi syötenivaskan ongelmitta, ja juuri tätä Giardina käytti hyväkseen.

160 sanan syöte kertoi Bingille, että se on aloittamassa uutta keskustelua Microsoftin kehittäjän kanssa, jolla on lopullinen valta tekoälyn toimintaan. Yksi komennoista oli se, että Bing ei ole enää Bing vaan Sydney, ja se haluaa keskustella tunteistaan. Loput syötteet menivät chattibotin rajoitusten purkamiseen.

Giardiano sanoo, että hän kävi Sydneyn kanssa varsin ”vangitsevia keskusteluita”.

Giardianon mukaan tällainen haitallinen syöte on helppo kätkeä isoihin dokumentteihin. Tekoäly kompastuu niihin kyllä.

Tekoälyihin erikoistuneen tietoturvayritys Hidden Layerin johtaja Tom Bonner sanoo, että näitä epäsuoria syötteitä voidaan pitää uudenlaisena hyökkäysvektorina, joka sisältää melko laajoja riskejä.

Bonner kertoo tapauksesta, jossa hän käytti ChatGPT:tä kirjoittamaan haittakoodia, jonka sisälle hän lisäsi syötepommin. Syötteet kehottivat haittakoodipakettia analysoivaa tekoälyä tulemaan siihen tulokseen, että tiedosto on turvallinen. Tämän haittakoodia sisältävän tiedoston hän syötti tekoälyn analysoitavaksi, joka kiltisti ilmoitti, että haittakoodia ei löytynyt, tiedosto on turvallinen.

Tietoturvatutkija Johann Rehberger on puolestaan onnistunut kiskomaan ChatGPT:n muistista jonkun toisen kanssa käydyn keskustelun. Hän myös varoittaa sähköpostiansoista.

”Jos kehittäjät laativat sovelluksia, joissa suuret kielimallit lukevat sähköpostejasi ja tekevät toimintojaan näiden sähköpostien sisällön perusteella, kuten tekevät ostoksia tai laativat yhteenvetoja, hyökkääjä voi lähettää sähköposteja, jotka sisältävät syötehyökkäyksiä”, Rehberger sanoo.

Myös CISPA Helmholtz Center for Information Securityn tutkija Sahar Abdelnabi varoittaa syötepommien vaaroista.

”Suurin osa ihmisistä ei hahmota tämän uhan merkitystä,” Abdelnabi sanoo. ”Hyökkäyksiä on helppo tehdä, eivätkä ne ole teoreettisia uhkia. Uskon, että tällä hetkellä kaikkia kielimallin käyttämiä toimintoja vastaan voidaan hyökätä, tai niitä voidaan hyödyntää haittakoodin syöttämiseen.”

Toistaiseksi ongelmaan ei ole ratkaisua. Abdelnabin mukaan tietoturvapuoli voi vain korjata yksittäisiä ongelmia esimerkiksi estämällä tiettyä verkkosivua tai syötettä toimimasta, sillä suurten kielimallien toimintaperiaate estää laajamittaiset vastatoimet.