Kone ei vielä opi kuten ihminen – ja 5 muuta harhakäsitystä, jotka on syytä oikoa tekoälykeskustelun kiimassa

Data scientist Ilari Scheinin ruotii tekoälykeskustelun vinoutumia.

Tekoälystä puhuvat nyt kaikki. Poliittisten puolueiden puheenjohtajatkin koottiin hiljattain suoraan lähetykseen kertomaan näkemyksiään asiasta. Rummutus on niin kovaa, että jotkut pelkäävät sen voivan johtaa vielä uuteen “tekoälytalveen”, ajanjaksoon, jona ylisuuret odotukset ja katteettomat lupaukset johtavat pettymykseen ja sitä kautta kiinnostuksen ja panostusten lopahtamiseen.

Vaikka kuplassa onkin ilmaa, on koneoppiminen lunastanut paikkansa osana arkeamme. Tekoälykeskusteluun on kuitenkin lipsahtanut harhakäsityksiä, joita on syytä oikoa. Muuten tärkeämmät kysymykset jäävät epäolennaisuuksien varjoon.

1. KUMPAA SE ON: TEKOÄLYÄ VAI KONEOPPIMISTA?

Jo pelkkä termi tekoäly synnyttää sekaannusta. Monelle siitä tulee mieleen älykäs kone, joka kykenee ymmärtämään asioiden välisiä yhteyksiä, luomaan niihin ratkaisuja, ja dystopiallisessa ääripäässä kenties myös tiedostamaan oman olemassaolonsa ja kääntymään ihmiskuntaa vastaan.

Tämänkaltainen “yleinen tekoäly” on kuitenkin vielä kaukana. Nykyistä teknologiaa voidaan kutsua “suppeaksi” tai “kapeaksi tekoälyksi”, ja käytännössä sen viimeaikaiset sovellutukset ovat perustuneet koneoppimisen menetelmiin. Tekoälyn sijaan koneoppimisesta puhuminen saattaisikin johtaa realistisempiin oletukseen ja säästäisi väärinymmärryksiltä.

2. KYNNYSKYSYMYS ON YLEENSÄ DATA, EI ALGORITMI

Julkisessa keskustelussa näkee käytettävän harhaanjohtavasti myös termiä “tekoälyn kehittäminen”. Olisi tärkeää erottaa toisistaan kaksi eri asiaa: koneoppimisen piirissä tapahtuva menetelmäkehitys ja jo olemassaolevien menetelmien vaatiman opetusdatan kerääminen.

Julkisessa keskustelussa näkee käytettävän harhaanjohtavasti myös termiä “tekoälyn kehittäminen”.

Yksinkertaistetusti koneoppiminen perustuu siihen, että koneelle annetaan joukko kysymyksiä ja oikeita vastauksia, joiden perusteella se hahmottaa niiden välisiä yhteyksiä. Tämän jälkeen koneelle voidaan antaa uusia kysymyksiä, ja se antaa oppimansa perusteella niihin vastauksia.

Käytännön sovellutusten kannalta todellinen kysymys onkin usein se, onko käsillä olevaan ongelmaan olemassa, tai ylipäätään tuotettavissa, sopivaa opetusdataa.

Avoimen lähdekoodin kirjastot ja pilvipalveluiden hyvä saatavuus taas tuovat käytännössä lähes viimeistä huutoakin olevat koneoppimisen menetelmät pienenkin startupin ulottuville.

3. DATAN KERÄÄMINEN VOI OLLA TYÖLÄSTÄ JA KALLISTA

Monesti opetusdata voidaan kerätä automaattisesti esimerkiksi nettisurffailua tai sosiaalisen median käyttöä seuraamalla. Mutta mikäli näin ei ole, opetusdatan kerääminen voi vaatia suuriakin panostuksia.

Esimerkiksi: kun Apple toi markkinoille Face ID -kasvojentunnistuksen, se tarvitsi teknologian kehittämiseen valtavan määrän lähikuvia ihmisten kasvoista. Se olisi voinut lähteä keräämään tätä aineistoa kehittämällä esimerkiksi yksinkertaisen mobiilipelin, jota käyttäjä olisi ohjannut pitämällä omia kasvojaan puhelimen edessä eri kulmissa. Mikäli pelistä olisi saatu tehtyä tarpeeksi kiinnostava, aineiston kerääminen olisi onnistunut automaattisesti siinä sivussa. Näin kerättävä aineisto olisi kuitenkin ollut vinoutunutta, eli se ei olisi edustanut koko käyttäjäkuntaa. Sen sijaan se olisi ollut valikoituneempi, sisältäen erityisen paljon esimerkiksi nuoria valkoisia miehiä, mutta vain vähän muita ryhmiä. Saadakseen käyttöönsä edustavaa opetusdataa, Apple laittoi rahaa likoon, ja järjesti ympäri maailmaa kuvaussessioita keräten yli miljardi valokuvaa.

4. TEKOÄLYN EETTISET KYSYMYKSET EIVÄT OLE NS. TROLLEY-ONGELMIA

Vinoutuneet opetusdatasetit ja niiden käytön seuraukset ovat yksi tärkeimpiä tekoälyyn liittyviä eettisiä keskustelunaiheita. Mikäli opetusdatassa on esimerkiksi rasistisia tai seksistisiä vinoumia, sen pohjalta opetettu koneoppimismalli ei suinkaan ole objektiivinen tai neutraali, vaikka kone onkin.

Mikäli opetusdatassa on esimerkiksi rasistisia tai seksistisiä vinoumia, sen pohjalta opetettu koneoppimismalli ei suinkaan ole objektiivinen tai neutraali, vaikka kone onkin.

Tekoäly toistaa orjallisesti sen tekijöiden (tai siis sen opetusdatan kerääjien) mielipiteet ja ennakkoluulot. Siinä se siis toki on objektiivinen ja johdonmukainen. Kysymykseen opetusdatan mahdollisista vinoumista liittyy läheisesti myös koneoppimismallien tulkittavuus. Monet mallit ovat niin kutsuttuja mustia laatikoita, eli ne suoltavat tuloksia, mutta eivät välttämättä minkäänlaisia perusteita siitä, miten ne niihin päätyivät. Opetusdatan vinoutumien seurausten tunnistaminen ja mallien tulkittavuus voidaan tietyllä tapaa nähdä tekoälyn vastuullisuusraportointina.

Eettisinä kysymyksinä ne ovat tärkeämpiä kuin niin kutsutut trolley-ongelmat, eli pohdinnat kuvitteellisista tilanteista, joissa toimija valitsee kahden vaihtoehdon välillä. Tekoälyn kohdalla on viljelty niistä erilaisia esimerkkejä. Yksi sellainen on esimerkiksi robottiauto tilanteessa, jossa sen on valittava, ajaako se lastenrattaita työntävän äidin yli vai päin seinää, surmaten ehkä kyydissään olevan omistajansa.

5. KONE EI VIELÄ OPI KUTEN IHMINEN

Menetelmäkehityksen osalta yleinen tekoäly siintää ehkä jossain hamassa tulevaisuudessa, mutta sen perään haikaileminen peittää alleen ajankohtaisempia kehityskohteita. Yksi sellaisista on juuri mallien tulkittavuuden ja läpinäkyvyyden parantaminen. Toinen tärkeä tavoite on vähentää riippuvuutta puhtaasti ohjatusta oppimisesta.

Sen sijaan, että kone pystyy oppimaan vain silloin, kun sille annetaan lista kysymyksistä ja oikeista vastauksista, se pystyisikin oppimaan myös vähemmän kattavasta ja valmistellusta aineistosta, aivan kuten ihminenkin.

Ihmisen oppimisprosessi on paljon monipuolisempi kuin pitkälti massiiviseen mekaaniseen toistoon perustuva syväoppiminen.

Kun puhutaan syväoppimisesta, eli syvistä neuroverkoista, niiden kuvataan usein oppivan “aivan kuin ihminen”. Vaikka neuroverkkojen rakenne onkin saanut inspiraatiota aivojen neuroneista, on vertaus kuitenkin kyseenalainen. Syväoppimisella on toki saatu erinomaisia tuloksia, ja kone on jossain tehtävässä voitu opettaa jopa paremmaksi kuin ihminen, mutta ihmisen oppimisprosessi on paljon monipuolisempi kuin pitkälti massiiviseen mekaaniseen toistoon perustuva syväoppiminen. Ihmisen kyky hahmottaa abstrakteja konsepteja ja asioiden välisiä yhteyksiä on edelleen tällä hetkellä eri luokkaa kuin koneen.

6. YKSILÖN SUOJAA JA OIKEUKSIA EI SAA UNOHTAA

Eettisten kysymysten osalta tärkeä aihepiiri on myös yksityisyydensuoja ja datan omistajuus. Suurilla teknologiafirmoilla on jo vahva asema kuluttajista kerätyn datan haltijoina niiden myydessä tätä tietoa mainostajille.

Kun koneoppimista tuodaan enemmän ja enemmän osaksi myös julkista sektoria ja sen päätöksentekoa, on tärkeää huolehtia kansalaisten yksityisyydensuojasta, eikä esimerkiksi myydä terveystietoja eniten tarjoavalle. Valtiollinen massavalvonta on myös yksi teknologian mahdollistama uhka, erityisesti Kiinassa, missä valvontakamerat ja kasvontunnistusohjelmat seuraavat ihmisiä jatkuvasti.

Suomessakin halutaan terrorismin torjunnan nimissä romuttaa perustuslain suomaa yksityisyydensuojaa ja laillistaa massavalvonta väittämällä, ettei se olisi massavalvontaa. Liiketoiminnan osalta EU:n yleinen tietosuoja-asetus (GDPR) pyrkii tässä suhteessa määrittelemään jonkinlaisia pelisääntöjä, ja Omadata (MyData) -periaate tarkastelee asiaa laajemmasta ja ideologisemmasta näkökulmasta. Vanhan sanonnan “jos palvelu on ilmainen, tuote olet sinä” loppuosan onkin sanottu nykyään kuuluvan “sinä olet opetusdataa”.