Nykyään kaikilla on tarina siitä, millaisia videoita YouTube ehdottaa katsomaan seuraavaksi. Maailman suurimmalla videopalvelulla on paineita pysyä suurimpana, eikä se onnistu, jos ihmiset katsovat vain klipin sieltä ja toisen täältä.

Niinpä se tarjoaa kärkkäästi lisää katsottavaa. Yhdelle YouTube suosittelee moniäänistä laulamista ja Ismo Leikolan sketsejä, toiselle stand up -komiikkaa ja kitaraefektien esittelyitä, kolmannelle talk show -pätkiä ja ajankohtaista huumoria.

Kaikki eivät ole tyytyväisiä ehdotuksiin, mutta YouTubea katsoo kuukausittain vähintään 1,5 miljardia käyttäjää, joten olisi ihme, ellei joukkoon mahtuisi myös huteja. (Voimmeko pysähtyä hetkiseksi ihastelemaan sitä, että joka viides maapallon asukas kirjautuu Google-tunnuksillaan katsomaan videoita vähintään kerran kuukaudessa?)

Eikä YouTube ole tietenkään ainoa nettipalvelu, joka ehdottelee käyttäjilleen oma-aloitteisesti uusia asioita löydettäväksi. Facebookin koko uutisvirta perustuu suosituksiin, jokaiselle käyttäjälle personoituun näkymään.

Tuorein tapaus on Facebookin omistama Instagram, joka vaihtoi vuonna 2016 tapaansa järjestää käyttäjälle näytettävät kuvat. Aiemmin ne esitettiin aikajärjestyksessä uusimmasta vanhempaan, mutta nykyään Instagram ennakoi, mitkä kuvat kiinnostavat käyttäjää eniten ja listaa ne ensimmäisenä.

Lue myös:

Tätähän sinä halusit?

Suosittelualgoritmit ovat yksi internetin megatrendeistä. Pohjimmiltaan ne ovat ennustuskoneita, laskentakaavoja käyttäjien mieltymysten löytämiseksi ja tyydyttämiseksi. Monen palvelun suosion salaisuus on juuri algoritmeissa, jotka luovat suosituksia.

Kaikki turvautuvat niihin samasta syystä eli ratkaistakseen ylenpalttisuuden ongelman. Kun ihmiselle tarjotaan liikaa vaihtoehtoja eli vaikkapa liian monta videota katsottavaksi, hän turtuu eikä tee mitään. Se on huono lopputulema nettijäteille, joiden menestys perustuu käyttäjien aktiivisuuteen ja käyttäjämäärän jatkuvaan kasvuun.

Joten sen sijaan että käyttäjän odotettaisiin löytävän itse kiinnostavaa katsottavaa, se kannetaan hänen eteensä tarjottimella.

Eräs tapa hahmottaa suosittelujärjestelmien toimintaa onkin verrata niitä hakukoneisiin. Niiden käyttäjä tietää mitä haluaa, muttei tiedä mistä haluttu asia löytyy. Ne siis etsivät neulan heinäsuovasta, kunhan käyttäjä vain osaa kuvailla, miltä neula näyttää.

Suosittelualgoritmi puolestaan kertoo käyttäjälle, millaisista neuloista hän tykkää ja penkoo sen esiin heinien joukosta ilman, että ihmisen tarvitsee sormea heilauttaa.

Verkkokauppa kehityksen kärjessä

Varhaisista neulankalastajista kuuluisin on Amazon.com, jonka suosittelualgoritmit ovat olleet osaltaan tekemässä siitä yhtä maailman suurimmista vähittäiskaupoista.

Amazonin ansioita ei mitata pelkästään dollareissa. IEEE Internet Computing -tiedejulkaisu juhlisti taannoin 20-vuotista taivaltaan palkitsemalla aiemmin julkaistun artikkelin, joka on osoittautunut tietojenkäsittelytieteen virstanpylvääksi. Voittajaksi valittiin Amazonin suosittelujärjestelmiä käsittelevä artikkeli vuodelta 2003.

Kyseessä on kollaboratiivinen eli yhteistoiminnallinen suosittelujärjestelmä. Verkkokaupan käyttäjille sen tulokset näkyvät muodossa ”asiakkaat, jotka ostivat saman tuotteen kuin sinä, olivat kiinnostuneita myös seuraavista tuotteista”.

Tuotepohjaisen suosittelujärjestelmän vahvuuksia ovat yksinkertaisuus ja skaalautuvuus valtavaan mittakaavaan – Amazonilla on nykyään satoja miljoonia tuotteita ja käyttäjiä, joilla voi olla kymmenien vuosien ostoshistoria, mutta silti algoritmi synnyttää varsin nopeasti suosituksia, joiden osumatarkkuus on vähintään kohtalainen.

Amazonin käyttämä malli edustaa yhtä suosittelujärjestelmien valtavirtauksista. Algoritmit voi jakaa muutamaan eri ryhmään sen mukaan, miten ne toimivat ja mihin niitä käytetään. Yhteistoiminnallisten lisäksi on demografisia sekä hyöty- ja sisältöpohjaisia suosittelujärjestelmiä.

Demografiset eli väestöllisiin piirteisiin pohjautuvat järjestelmät rakentavat suositukset käyttäjien ominaisuuksien perusteella, kuten keski-ikäiset kaupungeissa asuvat naiset pitävät kamarimusiikista ja nuoret maaseudulla asuvat miehet EDM-musiikista.

Hyötypohjaiset suosittelujärjestelmät puolestaan soveltuvat tilanteisiin, joissa käyttäjän tai tuotteiden profilointi ei riitä. Jos halutaan suositella asiakkaalle mieluisaa tietokonetta tai lomakohdetta, voi olla fiksumpaa kysyä hänen mieltymyksiään ja laskea ehdotus niiden pohjalta sen sijaan, että samat preferenssit pääteltäisiin käyttäjän aiemmista ostoksista.

Sisältöpohjaiset järjestelmät ovat usein työläimpiä, koska ne perustuvat suositeltavana olevan tuotteen ominaisuuksiin. Esimerkiksi musiikista voidaan analysoida äänellisiä piirteitä, kuten tempoa, energisyyttä ja monimutkaisuutta sekä lisätä soppaan metatietoja, kuten kriitikoiden arvosanoja ja pöhinää keskustelufoorumeilta.

Tällaisin työkaluin leivotaan ennusteita, joiden on syytä pitää paikkansa nopanheittoa paremmin tai algoritmi saa kenkää.

Netflix on kuuluisa suosittelija

Vuosikymmen sitten Netflix järjesti kilpailun, jossa haettiin keinoja parantaa katsojille annettuja elokuvasuosituksia. Myöhemmin yhtiölle työskennellyt Xavier Amatriain tiivisti kisan tärkeimmän opetuksen vuonna 2014 pitämässään esitelmässä: on erittäin yksinkertaista luoda osapuilleen järkeviä suosituksia ja äärimmäisen vaikeaa parantaa niiden osuvuutta.

Suosittelujärjestelmistä on kasvanut oma erikoisalueensa. Maailman suurin tietotekniikan tutkimukseen ja opetukseen keskittyvä järjestö ACM järjestää vuosittain konferenssin, jossa julkaistujen papereiden nimiä selailemalla saa käsityksen aihepiirin laajuudesta: suositusjärjestelmä maratoonareille omien ennätysten parantamiseen, kuinka suositella uutisia käyttäjille lyhyiden istuntojen aikana, erilaisia sosioekonomisia malleja majoitussuosituksille. Nämä ovat kaikki yhdeltä ja samalta vuodelta.

Tieteenala on saavuttanut tilanteen, jossa moni perustavanlaatuinen ongelma on ratkaistu. Se ei tarkoita, etteikö petrattavaa olisi etenkin erikoistuneilla aloilla ja uusia innovaatioita olisi mahdollista tehdä, mutta tällä hetkellä eteneminen näyttää tapahtuvan pienin askelein.

Suositusalgoritmin työ on kiittämätöntä. Kun ne toimivat hyvin, harva kiinnittää niihin huomiota, mutta heti kun suositukset menevät pieleen, alkaa marmatus. Ensimmäisenä tulee vastaan niin sanottu kylmäkäynnistysongelma: mitä suositella käyttäjälle, josta ei tiedetä mitään?

Yksi keino ratkaista ongelmia on yhdistellä erilaisia algoritmeja hybridiksi. Yksinkertaisimmillaan: jos kirjaston asiakkaalle suositellaan kymmentä kirjaa, niistä puolet valitaan asiakkaan lainaushistorian perusteella ja loput voivat tulla vaikkapa koko kirjaston tämän hetken suosituimpien teosten listalta.

Kylmäkäynnistyksen tapauksessa se voi tarkoittaa sitä, että turvaudutaan käyttäjäkohtaisten räätälöintien sijaan demografisiin seikkoihin. Jos käyttäjästä tiedetään ikä ja sukupuoli, jo siltä pohjalta voidaan usein antaa parempia suosituksia kuin ihmisille, joista ei tiedetä yhtään mitään. Netlixin kilpailun voitti todellinen hybridi. Se käytti 107 erillistä algoritmia, joista puristettiin ulos yksi suositus.

Nyrkkisääntönä voi pitää, että suosittelut toimivat sitä paremmin, mitä enemmän tietoa on kertynyt. Vähäisen tiedon eräänä vaarana on nimittäin ylisovittaminen, jossa muutaman havainnon perusteella tehdään liian laveita yleistyksiä käyttäjän mieltymyksistä ja päädytään lokeroimaan hänet.

Suosittelukupla?

Mitä suuremman roolin suosittelujärjestelmät saavat, sitä merkityksellisempiä niiden virheistä ja puutteista tulee. Aiheeseen liittyy myös käsitteellistä sekaannusta.

Koko 2010-luku on puhuttu filter bubblesta, informaatio- tai suosittelukuplasta. Se on ilmiö, jossa suosittelualgoritmit syöttävät käyttäjälle lisää sellaisia ja vain sellaisia juttuja, joista he tykkäävät jo valmiiksi.

Äärimmäisessä muodossaan informaatiokuplaan joutunut käyttäjä eristäytyy muusta maailmasta kokonaan. Nykyään soppaan lisätään vielä valeuutiset, jotka kiertävät ja kasvavat Facebookin suosittelualgoritmien lannoittamina.

Näillä kahdella ilmiöllä ei ole kuitenkaan suoranaista yhteyttä toisiinsa. Valeuutiset ja kuplautuminen toki saavat voimaa huonosti toimivista suosittelujärjestelmistä, mutta niissä on kyse ennen kaikkea sosiaalisista ilmiöistä.

Ihmiset jakavat valeuutisia, koska he tahtovat uskoa niihin tai eivät vaivaudu tarkistamaan, pitävätkö ne paikkansa. Tuntuu kohtuuttomalta vaatia, että algoritmi ajattelisi ihmisen puolesta. Kuplaa voi sitä paitsi venyttää suunnittelemalla suosittelujärjestelmään serendipiteettiä, onnekkaita sattumia.

Vihkoon meni!

Virheistä puhuttaessa on hyvä muistaa, että kaikki suositukset eivät ole keskenään saman­arvoisia. Jos Spotify lisää räätälöidylle, viikoittain päivittyvälle soittolistalle yhden huonon kappaleen, kärsimys kestää pisimilläänkin vain muutaman minuutin ja sitä paitsi kappaleen voi aina ohittaa painamalla next-nappulaa.

Mutta jos uuden poppibiisin sijaan suositus koskeekin elokuvailtaa, rantalomaa tropiikkisaarella tai uutta älypuhelinta, on virheen kustannus paljon suurempi.

Sillä huteja tulee. Törmäsin tänä vuonna tilanteeseen, jossa YouTube ehdotti minulle normaalien hassutteluvideoiden lisäksi äärioikeistolaisen brittipoliitikon voitonriemuista haastattelua. Se ei kiinnostanut minua tippaakaan, enkä ymmärrä, miksi moinen päätyi suosituslistalle.

Asiaan tuskin tulee koskaan selvyyttä, sillä YouTube on musta laatikko, jonka konesielunelämää kukaan Googlen ulkopuolella ei tunne tarkkaan. Sen kuitenkin tiedämme, että viime aikoina suosituksista on tullut tärkein tapa saada videoille lisää katsojia.

Vielä muutama vuosi takaperin YouTube kannusti sekä tekijöitä että katsojia kanavien pariin. Se lohkaisi tekijöille 100 miljoonaa dollaria, jotta nämä loisivat uutta sisältöä. Kanavapohjaisuus ei kuitenkaan ilmeisesti toiminut toivotulla tavalla, sillä pikku hiljaa siitä on luovuttu ja pääpaino on nykyään räätälöidyillä suosituksilla.

The Verge -julkaisun mukaan YouTuben uusi, koneoppimiseen perustuva suosittelujärjestelmä on vastuussa yli 70 prosentista kaikesta katseluun käytetystä ajasta.

Suosittelujärjestelmistä vastaava Todd Beaupre kertoi Vergelle jakavansa videot kolmeen ryhmään: videot, joiden kaltaisista olet tykännyt aiemmin; videot, jotka ovat juuri nyt nosteessa; ja videot, jotka ovat näiden kahden leikkauskohdassa – ja tätä kolmatta ryhmää YouTube nyt ajaa takaa, koska sieltä löytyvät parhaat suositukset.

Välillä mukaan vain näemmä livahtaa fasisteja.

Lue myös, mitä mieltä kolumnistimme Sami Kuusela on suosittelu­algoritmeista.