Puheentunnistus

Teksti: Samuli Kotilainen |

Samuli Kotilainen • Piirros: Petri Rotsten

Puheentunnistus
yleistyy vihdoinkin

Puheentunnistusta on luvattu arkikäyttöön jo vuosia, mutta tekniikan vaikeus on yllättänyt kaikki. Nyt uusien sovellusten ja palvelujen aalto alkaa yltää Suomeenkin.

Puheentunnistuksen vakava kehitystyö on ollut käynnissä jo yli 40 vuotta. Monet muistavat kuulleensa ensimmäisiä puhesyntetisaattoreita jo 1970-luvulla, ja seuraavina vuosikymmeninä puheentunnistuksen läpimurto oli aina ”muutaman vuoden päässä”. Puheentunnistus tuotiin IBM:n OS/2-käyttöjärjestelmään, ja sen mukana se kuopattiinkin.

Puheentunnistus löytyi jo Office XP:stä, ja nyt se on tuotu vakio-ominaisuudeksi Windows Vistaan. Microsoft ei ole kuitenkaan asiaa paljoa hehkuttanut. Osasyynä tähän lienee analyytikkotapaamisessa vuonna 2006 tehty esitys, joka kiertää vieläkin netissä hupivideoina. Äidille osoitetun kirjeen sanelu tuotti tuloksen ”Rakas täti, asetetaan niin tuplaa tappaja tuhoa valitse kaikki”.

Puheentunnistus ei siis vieläkään ole täyttänyt lupauksia. Luotettavasti eri ihmisten vapaata puhetta ymmärtävä järjestelmä on utopiaa, mutta epäonnistumisten taakse on piiloutunut myös todellista teknistä kehitystä.

Suomessa arkikäyttöön on tullut kaksi erityyppistä tekniikkaa. Puheentunnistus – tai paremminkin sanantunnistus – on synnyttänyt aivan uudentyyppisiä puhelinpalveluja. Ja totta tosiaan, vapaa sanelu tietokoneelle on arkipäivää yhä useammalla työpaikalla, tosin tiukoin rajoituksin.

Täysin vapaa sanelu jää haaveeksi

Vaikka puhujariippumaton vapaa sanelu ei ole vielä realistinen tavoite, toimii rajoitettu puheentunnistus jo yllättävän hyvin.
Suomessa puheentunnistuksen sanelutekniikkaa myy Konttorityö. Järjestelmä perustuu alan pioneerin Philipsin tekniikkaan, johon on kehitetty suomenkielisiä sanastoja ter­veydenhuollon käyttöön.

Sanelu on periaatteessa vapaata, mutta selvin rajoituksin. Sanastot on suunniteltu tiettyihin tarkoituksiin. Esimerkiksi radiologeille on oma sanasto, jota he käyttävät röntgenkuvien lausuntojen saneluun.

Lisäksi järjestelmälle pitää opettaa käyttäjän yksilöllinen tyyli. Käyttäjä lukee ensin koneelle tiettyjä tekstejä. Sen jälkeen järjestelmä jatkaa sopeutumista käyttäjän puheeseen viikkojenkin ajan, jolloin tarkkuus paranee. Mikrofonin pitää olla laadukas, ja kone-mikrofoni-yhdistelmän muutos vaatii osittain uuden koulutuksen.

Näillä rajoituksilla saadaan aikaan hyvää jälkeä. Parhaimmillaan on päästy jopa 98 prosentin tunnistustarkkuuteen, ja normaalitasokin liikkuu 90 tienoilla. Tekniikka on Suomessakin laajassa arkikäytössä. Yksilöerojen kerrotaan tosin olevan suuria. Muutamille puheentunnistus ei kerta kaikkiaan sovi, kun taas monet eivät luovu siitä mistään hinnasta.

Suurin hyöty puheentunnistuksesta on nopeus, ja siitä tuleva kustannussäästö. Jos lääkäri korjaa tekstin itse ruudulla, saa hän paperit eteenpäin heti sanelun jälkeen. Jos korjauksen tekee sihteeri, säästetään hänen työajassaan valtavasti aikaa verrattuna nauhasanelun purkuun.

Tällä hetkellä saneluratkaisu asennetaan erilliselle palvelimelle, ja liitetään suoraan potilasjärjestelmään. Hinta liikkuu vähintään tuhansissa euroissa.

Myös yksittäisen käyttäjän edullisempia pc-ohjelmistoja on tulossa myyntiin. Nykyään jo kannettavan tietokoneen teho riittää puheen tunnistamiseen, joskin sanelu tulee sekunnin pari myöhässä.

Sanantunnistus tulee puhelinpalveluihin

Reilun vuoden aikana Suomeen on ilmestynyt lukuisia uusia puheentunnistusta käyttäviä puhelinpalveluja. Eniten huomiota herätti Elisan vikailmoituspalvelu, mutta esimerkiksi kelpaavat myös Diacorin ajanvaraus, Assari-numerotiedustelu ja Kauppalehden uutispalvelu. Lisäksi monen yrityksen puhelinvaihde käyttää puheentunnistusta.

Suomessa tällaisia puhelinpalveluja tekee pääosin kaksi yhtiötä. Suomenkieliset kielimallit ovat rakentaneet Lingsoft sekä Suomen Puheentunnistus, jonka ratkaisu perustuu IBM:n tekniikkaan.

Sekä yritykset että palvelujen käyttäjät tuntuvat olevan palveluihin yllättävän tyytyväisiä. Jos kerran vapaa sanelu ei onnistu, miten on mahdollista, että puhelinpalvelu ymmärtää niin savolaisten, stadilaisten kuin lappalaistenkin puhetta? Vastaus on se, että kyse on lähinnä sanantunnistuksesta. Puhelinpalvelut on järjestetty kysymyksiksi, joissa vastauksesta etsitään yleensä yhtä tai muutamaa avainsanaa. Sana voi olla esimerkiksi nimi, osoite, numeroita tai pelkkä kyllä tai ei.

Henkilön puhetta verrataan mahdollisten vastausten sanalistaan, ja mallia on kehitetty tuhansien ihmisten erilaisilla puhetavoilla. Vastausten joukko (esimerkiksi Suomen kaikki kadunnimet) on sen verran pieni, että lähin vaihtoehto löytyy yleensä helposti. Tarvittaessa vaihtoehtoja voi olla useita. Esimerkiksi kyllä, joo, jees ja ookoo voivat tuottaa saman tuloksen.

Monien tällaisten puhelinpalvelujen onnistumisprosentti lähentelee sataa. Jos kone ei ymmärrä, siirtyy puhelu ihmisen kuultavaksi.
Tekniikka on nyt kehittynyt niin toimivaksi, että tälle vuodelle odotetaan uusien palvelujen nopeaa esiinmarssia. Palvelujen hinta pyörii kymmenissä tuhansissa euroissa, joskin isoin kuluerä syntyy yleensä integroinnista taustajärjestelmiin. Toisaalta henkilöstösäästöt ovat kovia. Ainakin IBM myy puheentunnistusta myös kuukausihintaisena palveluna, jolloin alkuun pääsee hyvinkin pienellä investoinnilla.

Uusien palvelujen ansiosta puheentunnistus on vihdoin lunastamassa vuosikymmenien lupauksiaan. Windows Vistan puheentunnistus osoittaa kaikkine ongelmineenkin, että puheentunnistus on tulossa arkikäyttöön. Konetehot nousevat koko ajan, ja käyttöön voidaan ottaa tehokkaampaa puheen mallinnusta. Läpimurrosta on ehkä turha puhua, mutta puheentunnistus hiipii koko ajan lähemmäksi tavallisen ihmisen arkea.

Suomenkielisen puheentunnistuksen testituloksia (2005)

Aineisto - Puhujariippuva - Sanavirhe
Puhekirja x 7%
Radiouutiset - 22%
Tv-uutiset - 35%
Radioluennot - 35%
Tv-väittelyt - 70%


Puheentunnistus Windowsissa

Windows Vistassa puheohjaus ja sanelu ovat vakiona, mutta ikävä kyllä ne toimivat vain englannin-, ranskan-, espanjan-, saksan-, japanin- ja kiinankielisissä versioissa. Suomenkielinen Vista ei suostu toimintoa avaamaan. Puheentunnistus löytyy vakiona myös Microsoftin toimisto-ohjelmapaketeista Office XP:stä lähtien, mutta niissäkin vain englanninkielisissä versioissa.

Vistan puheentunnistus on yllättävän laadukas ja monipuolinen mutta myös temperamenttinen. Puheella voi ohjata käyttöliittymää ja numeroruudukon avulla jopa hiirtä. Ohjelmien selailu ja myös web-selaus onnistuvat puheella. Tekstiä kirjoittaessa komennot ja sanelu toimivat yhtä aikaa.

Käytännön vaatimuksina ovat hyvä mikrofoni, hiljainen ympäristö ja Vistan kouluttaminen omaan puheeseen. Esimerkiksi mikrofonin vaihto tai taustamelun muuttuminen voi vaatia uuden koulutuksen. Microsoftin surullisenkuuluisa Vista-esitys meni pilalle ilmeisesti ohjelmistovirheen ja taustamelun muuttumisen yhteisvaikutuksesta.

Parhaimmillaan Vistan puheentunnistus toimii mainiosti. Huonoimmillaan se on raivostuttava.

Suomen kielellä ei ole tarjolla yksittäisiä puheentunnistamisen sovelluksia, mutta puheohjaukseen myydään 269 euron hintaista Lingsoft Speech Controller -ohjelmistoa. Sillä voi korvata ohjelmistojen näppäinkomentoja puheella.


Puheentunnistus vaati mutkikasta tekniikkaa

Puheentunnistus on monimutkainen ja monivaiheinen prosessi. Ensin ääni digitoidaan ja esikäsitellään. Näytteenottotaajuus voi olla 16000 näytettä sekunnissa, ja esikäsittelystä saadaan 125 näytevektoria sekunnissa.

Seuraavaksi kuvaan astuu akustinen malli. Tuhansien ihmisten puhetta on analysoitu, ja jaettu äänteisiin (useimmat kielet muodostuvat 40–50 erilaisesta äänteestä). Tunnistettavan puheen näytevektorien 26 erilaista piirrettä mallinnetaan 26-ulotteisessa avaruudessa, ja niistä pyritään rakentamaan äänteitä Hidden Markov -mallin avulla.

Mallinnus voidaan tehdä myös äänneryhmien, tavujen tai sanojen tarkkuudella. Seuraavaksi tulosta verrataan puheentunnistusjärjestelmän ”sanakirjaan”, jossa tietyt äänneryhmät vastaavat tiettyjä sanoja.

Ongelma on tietysti se, että monet eri sanat tai niiden osat kuulostavat samoilta, ja sanojen välejä voi olla vaikea löytää. Apuun tulee kielimalli, joka kertoo, miten kieli muodostuu. Kielimalliin on ohjelmoitu joitakin kielioppisääntöjä, ja vielä enemmän todennäköisyyksiä. Sanaryhmä ”hauskaa illan jatkoa” on paljon todennäköisempi kuin vaikkapa ”jatkoa illan hauskaa”.

Akustisen mallin ja kielimallin yhteistyöllä puheen sanat ja ilmaisut pyritään tulkitsemaan oikein. Vapaassa puheentunnistuksessa tätä hankaloittaa se, että kielimallin sanakirja on erittäin suuri. Näin on varsinkin suomen kielessä, jossa sanat taipuvat lukemattomiin eri muotoihin. Siksi tehokkaat hakutekniikat, joilla rajoitetaan haettujen sanojen joukkoa, ovat tärkeitä.

Tarkka tulos vaatii rajoituksia

Puheentunnistuksessa suoritetaan peräkkäin useita monimutkaisia ja raskaita mallinnuksia. Tehtävä on niin vaikea, että eri ihmisten vapaata puhetta tunnistava järjestelmä on tällä hetkellä utopiaa niin suomeksi kuin englanniksikin. Virheitä tulee niin paljon, että lopputulos on yleensä sekavaa sanapuuroa ilman välimerkkejä.

Teho paranee selvästi, kun lähtötilannetta helpotetaan. Jos puhuja on sama, ja järjestelmä viritetään hänelle, teho paranee. Taustamelun poistaminen ja laadukas mikrofoni auttavat asiaa. Jos aihealuetta ja sanastoa vielä rajoitetaan, päästään jo hyvinkin tarkkaan puheentunnistukseen. Puhelinpalveluissa, joissa kysytään lähinnä yksittäisiä sanoja, päästään jo melkein täyteen puhujariippumattomuuteen.


Puheentunnistuksen teho yllätti Elisan

Teleoperaattori Elisa otti lokakuussa käyttöön puheentunnistukseen perustuvan automaattisen puhelinpalvelun, jossa asiakkaat voivat tehdä laajakaistaliittymien vikailmoituksia. Puheentunnistuksen 98 prosentin onnistumisaste oli iloinen yllätys Elisalle.
”Olen ollut asiakaspalvelutyössä toistakymmentä vuotta, enkä ole koskaan kokenut näin onnistunutta käyttöönottoa”, kertoo Elisan osastopäällikkö Vesa Suomalainen.

Elisan tavoite puheentunnistuksen onnistumisprosentiksi oli 92. Yllätys oli miellyttävä, kun onnistumisprosentti ylittyi.
”Ensimmäiseen 10000 puheluun sisältyi ainoastaan 13 kielteistä palautetta. Kuukauden aikana asiakastyytyväisyys lähti rajuun nousuun”, Suomalainen kertoo.

Osasyy menestykseen on se, että 90 prosenttia vikailmoituksen puheluista on tavallaan turhia. Laajakaistayhteyden sijaan ongelma on käyttäjän päästä, mutta sen kuullakseen asiakkaan on pitänyt ensin jonottaa puhelinpalveluun.

Nopeus etuna

Puheentunnistuspalvelun suurin etu on nopeus. Tietokonekapasiteettia on helppo lisätä, eikä jonoja ole yleensä lainkaan.
Elisan palvelussa kysytään ensin henkilön nimi ja katuosoite. Puheentunnistusjärjestelmä tekee näiden pohjalta kyselyn Elisan vikatarkistusjärjestelmään, joka tarkistaa automaattisesti, onko yhteys asiakkaan laajakaistamodeemiin toiminnassa. Jos on, saa käyttäjä jatko-ohjeet ilman jonotusta.

Onnistumattomat puhelut johtuvat Suomalaisen mukaan lähinnä oudoista sanoista tai esimerkiksi vaikeasti lausuttavista kadunnimistä. Järjestelmään esimerkiksi lisättiin ”Iso Roba” vastaamaan Iso Roobertinkatua. Murteista leveä savo toimii toisinaan, mutta aito Rauman murre ei. Joukossa on lisäksi puheluja, joista ihmisenkin on vaikea saada selvää.

Uutta kehitetään vauhdilla

Elisalle järjestelmä tuo suuria säästöjä, kun vikailmoituksia vastaanottamaan ei tarvita enää kuin muutama henkilö. Työntekijät ryhtyivät ratkomaan puhelinpalvelussa monimutkaisempia asioita. Järjestelmä vaati euroissa kuusinumeroisen sijoituksen, mutta sen pitäisi maksaa itsensä takaisin alle vuodessa.

Vesa Suomalainen kertoo, että Elisa on jo kehittämässä useita uusia puheentunnistusta käyttäviä palveluja. ”Uskon, että puheentunnistuksen käyttö laajenee Suomessa todella paljon seuraavan vuoden aikana. Korttipakasta on käännetty pokeripeliin vasta pari ensimmäistä korttia.”