Tyämiäs o tyämiäs, ja pian tekoälykin tajuaa sen

Olli Kuparisen tekoälyä hyödyntävä murrehanke on kansainvälisesti ensimmäinen laatuaan.

Teksti: Juuso Pikkarainen

Kuvitus: Carla Ladau

Vaikka tekoälyn voi käskeä korjaamaan kielioppivirheitä tai kääntämään suomenkielisen tekstin englanniksi, on se auttamattoman huono suomen murteissa. Osittaisen avun tähän puutteeseen voi tarjota Olli Kuparisen vuoden alussa Tampereen yliopistossa alkanut akatemiahanke. 

Kuparisen hanke ei kuitenkaan keskity ChatGPT:n kykyyn esiintyä savolaisena tai oululaisena, vaan lähtökohta on puhekielen tutkimuksessa ja sen tukemisessa erityisesti litteroinnin osalta. 

“Puhekielen tutkimuksessa käytetään tallenteista tehtyjä, hyvin tarkkoja litteraatteja, jotka mukailevat perusteellisesti sitä, mitä on sanottu”, Kuparinen selittää. 

Ongelmana on, että tähänastiset litterointiohjelmat kääntävät esimerkiksi tamperelaisittain lausutun nuaren tyämiähen nuoreksi työmieheksi, joka on puhekielen tutkimuksessa aivan eri asia. 

Kuparisen mukaan tämä aiheuttaa suuren kynnyksen esimerkiksi puhekielen tutkimuksen pro gradujen tekemiseen, sillä litterointi vie tuhottoman paljon aikaa. 

“Tunnin aineiston litterointiin voi helposti vierähtää koko päivä”, Kuparinen kuvailee. 

Hanke on kansainväliselläkin mittapuulla ensimmäinen laatuaan. 

“On erilaisia yleiskielisiä automaattisen tekstityksen tai litteroinnin hankkeita, tai sitten toisaalta puhtaasti vain äänteiden tunnistamista yli kielten. Tämä projekti on tavallaan näiden välistä”, Kuparinen selittää. 

Murteiden mahdollisuuksia 

Vaikka hankkeen pääasiallinen tavoite on luoda litterointiin työkalu, joka tunnistaa yleiskielestä poikkeavat äänteet, tauot ja äänenpainot ja osaa tuottaa niiden mukaista tekstiä, voi hankkeesta olla Kuparisen mukaan moneksi. 

Voi esimerkiksi olla, että tekoälyn avulla jostakin murteesta löytyykin piirteitä, joita ei ole aikaisemmin tultu huomanneeksi vain kuunnellen ja käsin litteroiden. 

“Sehän olisi tavallaan ihannetilanne. Toisaalta on oma kysymyksensä, mikä merkitys jollain sellaisella yksityiskohdalla on, jota ihmiskorva ei ole tunnistanut.” 

Mahdollisuuksia on akateemisen maailman ulkopuolellakin. 

“Erilaisia sisältöjä, joita ei sido yleiskielisyyden vaatimus, kuten Youtube-videoita, olisi mahdollista tekstittää automaattisesti säilyttäen videolla puhutun murteen”, Kuparinen ehdottaa. 

“Tunnin aineiston litterointiin voi helposti vierähtää koko päivä”

Urbaanilegendan mukaan puhelinmyyntifirmat ovat huomanneet ihmisten olevan suopeimpia Itä-Suomen murteilla puhuville myyjille. Voisiko tekoäly auttaa savoa kuumeisesti viäntäviä espoolaisia puhelinmyyjiä tuottamaan uskottavaa murretta?  

Kuparinen ei torppaa ajatusta. Hän itse väläyttää mahdollisuutta oman puhetavan analysointiin. 

“Tekoäly voisi esimerkiksi kertoa, että puheessasi on tämän ja tämän verran hämäläismurteiden jäänteitä, ja tämän verran savolaispiirteitä.” 

Huolia ja puritanismia 

Voisiko iltapäivälehtien sivuilta siis tulevaisuudessa löytyä tekoälyä hyödyntäviä “testaa, kuinka turkulaisittain puhut” -tyyppisiä testejä? 

Kuparista huvittaa. Hänen mukaansa murteisiin suhtaudutaan tyypillisesti kummallisella purismilla, vaikka yleensä ihmisten puheessa on elementtejä eri murteista ja laajemmasta puhekielestä. 

“Minulla on esimerkiksi joitain hämäläisiä, joitain eteläsuomalaisia ja joitain yleiskielisiä elementtejä puheessani. On luonnollista, että ne menevät sekaisin.” 

Hyvänä esimerkkinä murrepuritanismista kävisi Kuparisen mukaan Väinö Linnan Tuntematon sotilas. Romaanin eri puolelta Suomea kotoisin olevien hahmojen repliikkejä käytiin aikanaan läpi murreasiantuntijoiden kanssa juurta jaksaen. Kuparinen sanoo hieman karsastavansa tällaista näkökulmaa. 

“Tekoäly voisi esimerkiksi kertoa, että puheessasi on tämän ja tämän verran hämäläismurteiden jäänteitä, ja tämän verran savolaispiirteitä.”

“Linnahan kirjoitti alun perin eri hahmojen repliikit siten, etteivät ne olleet puhdasta murretta. Kustantaja halusi ikään kuin puhdistaa repliikit, vaikkei se olekaan mitenkään luonnollista puhetta.” 

Kuparisen mukaan suomalaista murrekeskustelua ja -tutkimusta on leimannut 1800-luvulta saakka huoli murteiden sekoittumisesta tai katoamisesta. 

Ensin pelättiin sivistyksen ja yleiskielen tuhoavan murteet, sitten kaupungistumisen. Nykyään epäilykset kohdistuvat englannin kieleen. 

“Ei se huoli ole vielä missään vaiheessa toteutunut. Siinä mielessä olisin aika luottavaisin mielin.”