Aalto-yliopiston puheen ja kielenkäsittelyn professori Mikko Kurimon mukaan tekoälyn koulutuksessa käytössä on eduskunnan äänitettyjä puheita yhteensä 3000 tuntia viimeisen 12 vuoden ajalta, sekä puheiden transkriptiot.

Kurimo kertoo puheentunnistuksen opettamisesta Tekoäly nyt -podcastissa. Podcastia vetävät tietokirjailija Antti Merilehto ja Accenture Suomen Liquid Studion johtaja Karoliina Hagman.

Puheentunnistuksen opettamista auttaa se, että kansanedustajien puhe lienee selkeämpää ja aiheet rajatumpia kuin arkikielisessä, vapaassa keskustelussa.

"Siinä me saavutetaan erittäin hyvä tulos ja se johtuu tietysti siitä, että aihe on materiaalin takia hyvin hallussa, ja toisaalta puhujatkin ovat aika semmoisia alan ammattilaisia", Kurimo kertoo Suomen Podcastmedian tiedotteessa.

Suomi on vaikea kieli

Kurimon mukaan onnistunut puheentunnistus riippuu paljon siitä, minkälaisia asioita puhutaan sekä miten, kuinka selvästi ja millä sanoilla. Puheentunnistus vaatii toimiakseen aineistoa, jotta se voi oppia tunnistamaan puhetta. Tällä hetkellä aineistoa löytyy suomeksi eniten eduskunnasta.

Jos eduskunnassa joku pitäisi puheen esimerkiksi vahvalla Pohjois-Karjalan murteella, ei siitä Kurimon mukaan saisi kuitenkaan järkevää tulosta yleispuheentunnistimella, koska aineisto ei taipuisi siihen.

"Murteethan ovat vähän kuin kieli ja siinä mielessä se on semmoinen jatkumo, ei ole oikein selvää rajaa olemassa, että missä vaiheessa murre muuttuu eri kieleksi. Ja tietysti mitä vähemmän aineistoa, niin taas kerran sitä vaikeampaa."

Hänen mukaansa englanninkielisen puheentunnistus on jo varsin hyvä, ja sitä myös käytetään monissa sovelluksissa. Käytännössä mitä enemmän puheentunnistusta käytetään, sitä isommaksi aineisto muodostuu eli puheentunnistus paranee, ja tulee enemmän sovelluksia, mikä taas lisää käyttöä ja toisaalta myös taloudellisia resursseja. Näin kyse on eräänlaisesta ketjureaktiosta.

Kielissä on kuitenkin myös eroja. Utopia Analyticsin toimitusjohtaja Mari-Sanna Paukkeri huomauttaa samassa keskustelussa, että suomi on melkein kaikissa tekstianalytiikkatehtävissä – puheentunnistus mukaan luettuna – yksi vaikeimmista kielistä analysoida automaattisesti, kun taas englanti kuuluu rakenteeltaan helpoimpien joukkoon.