Kone tunnistaa puheen
Yhä useampi soittaja asioi puhelinpalveluissa koneen kanssa. Puheentunnistus kasvattaa hiljalleen suosiotaan myös muussa käytössä.
Puheentunnistus ei ole keksintönä uusi, mutta käytännön sovellukset ovat olleet vähäisiä. Käyttöönottoa ovat hidastaneet tekniset rajoitukset ja riippuvuus puhutusta kielestä.
Useimmat tähänastiset sovellukset keskittyvät rajatun sanajoukon tarkkaan tunnistamiseen. Esimerkiksi ajanvaraus lääkäriin ei vaadi ohjelmistolta juuri muuta kuin henkilötunnuksen ja halutun ajankohdan tunnistamista.
Vapaamuotoisen ja jatkuvan puheen käsittely sen sijaan on vaativa tehtävä. Tietokone tunnistaa puheesta sanoja, jotka on poimittava satojen tuhansien tai miljoonien joukosta. Oikean sanan valinta vaatii myös tietoa sanojen keskinäisestä esiintyvyydestä.
Kielenä suomi on kova pala koneelle. Syynä on taivutuspäätteiden suuri joukko, joka moninkertaistaa tunnistettavien sanojen määrän. Suomenkielistä puheentunnistusta kehittää kaksi yritystä: ohjelmistotalo Lingsoft sekä puhepalvelujen toteutukseen erikoistunut Suomen Puheentunnistus. Lisäksi alan tutkimusta on Teknillisessä korkeakoulussa.
Lingsoftilla on demoluonteinen jatkuvan puheen muuntopalvelu, jossa puheen muuntaminen tekstiksi kestää toistaiseksi melko kauan, eikä tunnistustarkkuus yllä täydelliseen. Kehittäjien mukaan äänenlaatu vaikuttaa huomattavasti lopputulokseen.
Jatkuvan puheen tunnistusta käytetään jo tietyillä erikoisaloilla. Lääkärit ovat ensimmäisinä ottaneet konetunnistuksen käyttöön sanelussa, ja käyttö on lisääntymässä myös lakialalla.
Äänispektrien jäljillä
Puheentunnistuksen peruslähtökohta on etsiä äänestä koneellisesti havaittavia piirteitä, jotka erottelevat sanoja tai äänteitä, mutta ovat puhujasta riippumattomia. Tällainen ominaispiirre on äänenvoimakkuuksien jakauma eli spektri. Vertaamalla havaittua spektriä tietokoneen sanastoon tallennettujen sanojen spektriin ohjelmisto voi periaatteessa päätellä, mistä sanasta on kyse.
Käytännössä sanojen spektrit puheessa vaihtelevat, ja yksittäisiä sanoja on taivutuksineen liikaa tallennettavaksi sanakirjaan. Nykyaikaiset ohjelmistot pyrkivät ratkaisemaan ongelman niin sanottuihin piilotettuihin Markov-prosesseihin perustuvilla puhemalleilla. Ydinajatus on, että peräkkäisten äänteiden tuottama spektri voidaan osittain ennustaa yhdistelemällä yksittäisten äänteiden spektrejä.
Tilanne on rinnastettavissa siihen, että lukija näkisi sanoissa esiintyvien kirjainten kappalemäärät, mutta ei niiden järjestystä. Sopivin osuma on edelleen valittava tunnetusta sanastosta. Vinkkiä tunnistukseen antaa myös lauseyhteys.
Puhepalveluja nopeasti
Puheohjauksella toimiviin palveluihin voi Suomessa tutustua helposti. Esimerkiksi taksin voi tilata Helsingissä kertomalla automaatille kaupunginosan, ja Diacorin lääkäriasemille on puheohjattu ajanvaraus. Palvelut on toteuttanut Suomen Puheentunnistus. Toimitusjohtaja Janne Argillanderin mukaan projektien tyypillinen läpivientiaika on noin kolme kuukautta.
”Palvelua tarvitsee harvoin rakentaa alkutekijöistä, sillä pohjana on aiemmin kokonaan ihmisvoimin operoitu palvelu. Palvelukuvauksen laatiminen on tällöin helppoa, ja asiakkaan aikaa säästyy”, Argillander sanoo.
Kaikki ei aina suju odotetusti joko käyttäjästä tai asian luonteesta johtuen. Tällöin on tärkeintä, että langan päähän saadaan myös ihminen.
”Monissa palveluissa osa puheluista tulee aina vaatimaan henkilökohtaista palvelua. Tällöinkin kone voi jaotella käyttäjät ongelman laadun mukaan, ja tarpeettomat rutiinit saadaan kuormittamasta henkilöstöä,” Argillander kertoo.
www.lingsoft.fiwww.puheentunnistus.fi
Puheohjausta ja sanelua englanniksi
Markkinoilla ei toistaiseksi ole suomea ymmärtävää tunnistusohjelmistoa, mutta kansainvälisessä ympäristössä työskentelevät hyötyvät Dragon Naturally Speaking -ohjelmistosta. Valmistaja Nuance on yleiskäyttöisten tunnistusohjelmistojen markkinajohtaja maailmassa.
Dragon mahdollistaa puheohjauksen ja sanelun useimmissa ohjelmistoissa ja esimerkiksi World of Warcraft -verkkopelissä. Tekstiksi voi muuntaa esimerkiksi digisanelimella tallennettuja tiedostoja.
Tunnistustarkkuus on yllättävän hyvä noin puolituntisen harjoittelun jälkeen. Kokonaisia lauseita voi sanella virheettä luonnolliseen tahtiin. Ohjelmisto kykenee useimmiten lisäämään välimerkit automaattisesti.
Korjaukset tehdään myös puheohjauksella: Ohjelmistoa kehotetaan valitsemaan virheellinen sana, ja tarvittaessa korjaus luetellaan kirjain kirjaimelta. Näin Dragonin voi opettaa tunnistamaan esimerkiksi suomalaiset nimet.
Dragon osoittaa, ettei puhetta ymmärtävä kone ole utopiaa. Valitettavasti hinta lienee liikaa useimmille, joista olisi hauska silloin tällöin laatia sähköposteja ilman näppäimistöä. Eniten hyötyä siitä on käyttäjille, jotka haluavat tehdä suhteellisen yksinkertaisia tehtäviä käyttäessään samalla käsiään muuhun. Hyvä lisä työhön on bluetooth-kuuloke.
Dragon Naturally Speaking 10
Hinta: alkaen 99 dollaria (Standard), kallein 899 dollaria (Professional-yritysversio)
Lisätietoja: www.nuance.com
Puheohjaa Windowsia
Toteutuksen kannalta henkilökohtaisten laitteiden puheohjaus on helpompaa kuin julkisen palvelun. Puhujia on korkeintaan muutama, jolloin ohjelmistoa voidaan opettaa kuuntelemaan juuri heidän puhettaan.
Täydellisesti puheohjattavasta tietokoneesta ollaan vielä kaukana, mutta Windows-käyttäjät voivat hakea ensituntumaa Vistan ja Windows 7:n puheentunnistuksesta. Vistassa toiminto otetaan käyttöön Ohjauspaneelin Speech Recognition -kuvakkeesta.
Alussa ohjelmistoa opetetaan lukemalla sille tekstinäytteitä. Järjestelmän ohjaamiseksi käyttäjän on opeteltava avainsanat ulkoa.
Vistassa toimintoa on pidettävä lähinnä kuriositeettina, koska tunnistustarkkuus on kehno. Windows 7 lupaa kuitenkin selviä parannuksia.
Google-hakuja ääneen
Hakukoneyhtiö Google on tehnyt matkapuhelimissa toimivan puheentunnistusratkaisun. Google Mobile Apps -sovelluksessa voi sanoa ääneen hakusanoja englanniksi tai kiinalaisessa versiossa mandariinikiinaksi.
Googlettaminen puheella toimii hämmästyttävän hyvin, kunhan lausuu niin, että sanat erottuvat toisistaan. Kokonaiset lauseetkin tunnistuvat. Sovellus antaa hakutulokset nopeasti ilman kirjoittamisen vaivaa.
Google Mobile Apps tuli marraskuun alussa tarjolle S60-alustalla toimiville älypuhelimille. Apple Iphoneen se on ollut saatavilla vuoden pidempään, ja muista alustoista tuettuja ovat Android ja Blackberry.
ARI SAARELAINEN
Puhetta paketeista
Itella ryhtyi puheentunnistuksen käyttäjäksi syksyn aikana. Puheentunnistus toimii toistaiseksi yhtiön sisäisessä puhelinvaihteessa ja kotimaan pakettien lähetysseurannassa kuluttaja-asiakkailla.
”Jos lähden meidän sisäisen vaihteen kautta tavoittamaan jotakin itellalaista, kysyn nimellä henkilöä. Puheentunnistus sitten tunnistaa henkilön ja yhdistää saman tien”, yksikönjohtaja Jyrki Laakso selostaa ratkaisuja. Pakettien seurannassa soittaja taas saa tietää lähetyksensä tilanteen sanomalla ääneen pakettikortin numero- ja kirjainsarjan.
Lingsoft Oy:n toimittaman puheentunnistusratkaisun käyttöönottoon innoitti halu parantaa palvelua ja avata uusi palvelukanava.
”Itse lähdettiin hakemaan alan toimijoita ja tutkimaan mistä tässä on kysymys. Ajuri tietenkin on asiakaspalvelu, eli tämmöinen automaatti tasaa ruuhkahuippuja ja antaa mahdollisuuden ympärivuorokautiseen palveluun”, Laakso kertoo.
Odotukset on hänen mukaansa saavutettu. Palvelujen toimivuutta seurataan jatkuvasti, ja kielteistä palautetta on tullut vähän.
”Kun nauhoja kuuntelee, kyllä siellä välillä ärräpäitä kuuluu, kun kone ei ole heti ymmärtänyt, mistä on kyse, mutta kokonaisuus on ollut varsin tyydyttävä. Tietenkin pyritään parantamaan tunnistuksen tasoa entisestään analysoimalla, minkä tyyppisiä asioita kone ei ymmärrä.”
Tunnistusongelmien yleisin syy ovat kovat taustaäänet, kun soittajan ohi kulkee autoja tai puhuvia ihmisiä. ”Joskus asiakas jatkaa puhetta vieruskaverin kanssa, jolloin kone pyrkii tunnistamaan tätä. Näissä asioissa meidän täytyy vielä viilata järjestelmää”, Laakso sanoo.
ARI SAARELAINEN








