Tekoälyn kielitaito on vasta puhkeamassa kukkaan

Tekoälyn kielitaito on vasta puhkeamassa kukkaan


Olet varmasti huomannut kuinka niin kutsutut chatbotit ovat mullistaneet asiakaspalvelun monessa isossa organisaatiossa. Botit pystyvät vastaamaan ihmisten esittämiin yksinkertaisiin kysymyksiin. Chatbottien taustalla ei kuitenkaan ole yleensä tekoälyä tai koneoppimista. Kyseessä on lähes aina sääntöpohjainen järjestelmä, jonka jokainen reaktio on ohjelmoitu systeemiin manuaalisesti.

Entä sitten uudet, kotiin saatavat virtuaaliset assistentit? Näidenkin taustalla on paljon perinteistä ohjelmointia, jolla ei ole mitään tekemistä tekoälyn kanssa. Laitteissa on koneoppimismalli, joka tunnistaa puheesi ja muuttaa sen tekstiksi. Ehkä puheesi myös luokitellaan koneoppimismallilla Google-hauksi tai säätiedusteluksi. Tästä eteenpäin tekoäly jää usein pitkälti sivuun. Sanat ”soita kappale…” tulkitaan perinteisenä tietokonekäskynä, joka avaa musiikkisovelluksen.

Ongelmana on se, etteivät tietokoneet ymmärrä vielä kielen varsinaista merkitystä. Tämä tosiseikka ei muutu vuonna 2018 eikä todennäköisesti edes vuonna 2020. Muutosta on tapahtunut kuitenkin siinä, miten tekoälymalleja koulutetaan ymmärtämään kielen rakennetta.

Tähän asti kielimalleja on koulutettu jokaista sovellusta varten pitkälti erikseen omalla datalla. Niinpä organisaatiolla on täytynyt olla mittava määrä suomenkielistä tekstidataa, jotta se on voinut hyödyntää tekoälyä kielenkäsittelyssä. Tämä on rajoittanut kielimallien kehitystä ja antanut suuren kilpailuedun muutamalle kansainväliselle yhtiölle, joilla on ollut pääsy valtavaan teksti- ja puhedataan.

Merkittävä muutos tapahtui keväällä 2018, kun useampi kielenkäsittelyn huippututkija ehdotti, että tietokonemallin kerran oppimia kielen rakenteita voisi hyödyntää muissa sovelluksissa (Howard & Ruder 2018; Peters et al. 2018; Radford et al. 2018). Vastaavaa tekniikkaa on hyödynnetty kuvantunnistuksessa viiden viime vuoden ajan (Donahue et al. 2013). Se on sallinut kuvantunnistuksen käyttöönoton uusilla ongelma-alueilla hyödyntämällä muiden osa-alueiden kuvilla koulutettuja malleja.

Kielenkäsittelyssä tapahtunut muutos mahdollistaa kielimallien laajamittaisen käyttöönoton myös pienemmissä organisaatioissa. Nyt muun muassa lauserakenteita tarvitsee opettaa tekoälymallille vain kerran. Esimerkiksi Fujitsu Finlandin AI-tiimi koulutti kesälomien aikana monikielisen kielimallin vapaasti saatavilla olevalla tekstidatalla. Sitä voi nyt käyttää vahvana pohjana asiakkaidemme kielenkäsittelysovelluksissa. Tämän ansiosta asiakkaamme eivät tarvitse enää suurta määrää suomenkielistä tekstidataa hyödyntääkseen tekoälyä organisaatiossaan.

Syksystä on tulossa todella jännittävä kielenkäsittelyn parissa. Ota minuun rohkeasti yhteyttä, jos haluat kuulla aiheesta lisää!

Paikallinen osaaminen avittaa tekoälyn voittokulkua (Net 28.8.2018)

Referenssit

+ There are no comments

Add yours