Resultatet efter någon timmes inlärning är imponerande. Nu kan vi prata med datorn på svenska eller något annat av ett halvdussin språk. Företaget bakom det engelskspråkiga röststyrningsprogrammet Dragon Naturally Speaking hävdar att du kan komma igång direkt, utan någon inlärning. Det är för oss som har svenska som modersmål en överdrift, men efter att ha låtit programmet lyssna på vår röst en stund går det riktigt bra.


Karl-Evert Wannberg på XNX Data, som är återförsäljare av både amerikanska Dragon Naturally Speaking och det svenska programmet Voice Xpress Professional, vill inte sälja programmen utan att samtidigt sälja utbildning på dem. Han menar att det fortfarande är alltför svårt att komma igång själv och att resultatet då blir att folk kommer tillbaka missnöjda.

– Dragon Naturally Speaking har kommit längst och där är man bra igång med att diktera för Word på ett par timmar. Ett par timmar till och du kan styra datorn med röstkommandon, förutsatt att du är något så när hemma på de engelska uttrycken. Det svenska programmet Voice Xpress Professional bygger på samma motor som Dragon, men ligger lite efter. Där räknar vi med fyra timmars kurs på diktering och ytterligare fyra timmar på röstkommandon, säger Karl-Evert Wannberg.


Nu kan jag prata naturligt med datorn

Första gången jag kom i kontakt med röststyrningsprogram var när jag arbetade i ett IBM-projekt i slutet av 90-talet. Då var det engelska som gällde och jag fick sitta timtals i ett tyst rum och prata in mängder av upplärningstexter. Ändå var resultatet ganska klent. Det var inget jag kunde använda seriöst i mitt arbete, utan mer något för att roa kollegorna.

Nu upplever jag att jag för första gången har kunnat prata någorlunda naturligt med datorn. Den förstår förvånansvärt mycket av vad jag säger. På svenska krävs fortfarande en del röstupplärning och man måste lära in en del kommandon, men det är inte värre än att lära in kortkommandon på tangentbordet. Och vad skönt det är att slippa rätta text där jag har tryckt på Caps Lock av misstag.

Nu vill jag se programmen anpassade till pda:er och mobiler, så att vi får ett enkelt och naturligt gränssnitt till dessa småapparater utan att behöva plottra med miniatyrknappar.

 

Eva Heljesten, produkttestare



Delas upp i ljudelement

Röststyrningsprogrammen är uppbyggda så att de hackar upp ljudet hundratals gånger per sekund till små ljudelement. De analyseras sedan mot en ordlista som bygger på både fonem och ord. Programmet samlar också fraser. Alla enskilda bitar kallas slots. Ur sloten ”plocka russinen ur kakan” kan både de enskilda orden ”russin” och ”kaka” plockas, men också hela begreppet. En avancerad rutin kan plocka ett visst ord ur flera sådana slots.

Det finns en inbyggd grammatisk intelligens där ordens sammansättningar är viktiga. Ju längre mening, desto fler ord tolkas rätt. Det är alltså enklare för programmet om du pratar med flyt än om du säger enstaka ord.


”När du är inkörd på programmet
kan du skriva fem gånger så
snabbt med rösten som med
tangentbordet.”



Karl-Evert Wannberg på XNX Data ser en bred målgrupp för programmen. Företaget säljer mycket till personal inom vården och till advokatkontor. Programmet lämpar sig för alla som skriver mycket, menar Karl-Evert Wannberg, och för personer som skriver långsamt på ett vanligt tangentbord.

De som drabbats svårt av musarm är en motiverad målgrupp, då kan ett röststyrningsprogram vara enda sättet att hålla sig kvar i arbetslivet. Inom både medicin och juridik finns extra specialmoduler att köpa för just den terminologin.

För personer som ofta är på språng kan en bärbar dator med en liten diskret huvudmikrofon vara lösningen. Det går även att diktera in talet i en Olympusdiktafon och sedan importera wav-filen till röststyrningsprogrammet i efterhand.

Sitter du i en bullrig miljö, som ett kontorslandskap eller liknande, kan du få programmet att fungera med bullerdämpade mikrofoner, enligt Karl-Evert Wannberg. Själv hårdtestade han programmet på flyget hem från Köln, berättar han. Han satt precis bakom en av motorerna och hade ventilationen på för fullt. Genom att använda en bullerdämpad mikrofon och stänga av den så snart han inte pratade lyckades han skriva en tredjedels A4-sida med bara två till tre tolkningsfel.

Röststyrningsprogrammen fungerar även med Mac, förutsatt att datorn har Intelprocessor och Vmware Fusion. Man dikterar i Windowsfönstret och kan sedan kopiera och klistra in resultatet i Macprogrammet.


Så låter det när vi pratar med datorn.


 

 


Vill du se och höra hur det går till att prata med datorn i praktiken? På techworld.se/rostprov hittar du en kort filmdemo av det svenska programmet Voice Xpress.


 




Träna på specialämnen

Bäst fungerar programmet när du har gjort en noggrann röstinlärning och sedan talar in texter inom de specialämnen du har tränat programmet i. Du kan lära programmet en ny vokabulär genom att i förväg mata in textfiler inom ett visst ämnesområde för att öka precisionen.

Du kan även skanna in pappersdokument för upplärning inom det aktuella ämnesområdet. Om du till exempel arbetar som sportjournalist och har tränat programmet i sporttermer kommer du att få en lägre träffbild om du plötsligt byter ämnesområde och börjar prata gps-navigering eller sömnad.

Karl-Evert Wannberg hävdar att du, när du väl är ordentligt inkörd på programmet, kan skriva fem gånger så snabbt med rösten som med tangentbordet eller tre gånger så snabbt som en van sekreterare, förutsatt att du vet vad du ska säga.

Till fördelarna hör att programmet aldrig stavar fel och en grammatikkontroll visar heller sällan något fel.

Du kan använda röststyrning i webbläsaren. Det går då att koppla in en funktion som numrerar länkarna på en sida och sedan kan du med ett kommando välja vilken länk du vill röstklicka på.




”Sa du Suckungen?” Vår teknikexpert Jörgen Städje har prövat taligenkänning som inte fungerar. Hur kan ”Stockholms Central” bli ”Suckungen”?
Läs hela krönikan här.

 

 








Programmets begränsningar

För att programmet ska fungera krävs en del träning. Du måste läsa upp övningstexter för att lära programmet att tolka just din röst. Det går inte att ta kollegans profil och tro att det går lika bra att använda den. Därför kan du heller inte använda programmet till intervjuer.

Varje person som ska tala med datorn måste först ha en röstprofil, något som tar minst en timme att göra i ordning. Likaså måste du lära in ett antal kommandon för att styra datorn: öppna programmet, markera fetstilt text, spara filen, skriva ut och så vidare.

En annan begränsning ligger i vokabulären. Ju mer speciellt ämnesområde, desto viktigare är det att först lära upp programmet med ämnesrelaterat bakgrundsmaterial. Programmet har lättare att tolka orden om du läser längre meningar. Korta enstaka ord är mycket svårare, eftersom det då saknas kringliggande sammanhang.

Det är att rekommendera att du först skapar en grundläggande röstprofil och sedan skapar olika specialprofiler beroende på ämnesområde. Likaså kan en röstprofil per mikrofon vara en bra idé.

Röststyrningsprogrammet fungerar väl med Microsoft Office och en del andra program, till exempel Edisons redovisningsprogram. Använder du udda, lite äldre program, som inte fungerar med röststyrningsprogrammet, går det att gå en omväg via ett inbyggt dikteringsfönster i röststyrningsprogrammet. Där hamnar talet som ren text och kan sedan kopieras och klistras in i rätt program.

SPCS bokföringsprogram är ett exempel på program som kan vara svåra att hantera. Ett annat är mejlprogram, där röststyrning brukar fungera, men har sina sidor. Meddelandetexten ”Jag skickar varorna på måndag” riskerar att oavsiktligt skicka iväg mejlet redan på andra ordet. Programmet har då tolkat verbet ”skickar” som kommandot ”Skicka”.

Ibland hamnar du i situationer då det fortfarande är mest effektivt att ta till mus och tangentbord. Det kan handla om vissa typer av textredigeringar eller programfunktioner du sällan utför och som du inte har lärt dig kommandon för.

Den största begränsningen enligt Karl-Evert Wannberg är dock den enskilda användarens intresse och vilja. Det är en viss tröskel att vänja sig vid det nya gränssnittet och utan intresse och engagemang kommer det att fungera dåligt.

En ny svårighet är korrekturläsningen efteråt. I en text du har matat in på traditionellt sätt med tangentbord är du van att leta efter skriv- och stavfel. I det röstskapade dokumentet uppstår inga sådana, felen blir av en helt annan karaktär. Meningarna kan på ytan se helt korrekta ut och endast en närmare genomläsning ger vid handen att till exempel ”Jag gillar att ligga på soffan” har förvandlats till ”Jag gillar att ligga på koftan”.


Ångra och korrigera – så kan du be datorn agera

Förutom att säga kommatecken, punkt och liknande skrivtecken kan du styra programmet med andra kommandon. Några exempel:

Kommandots innebörd

Dragon Naturally Speaking

Voice Xpress Professional

Ger en ny rad eller ett nytt stycke i ordbehandlingsprogrammet

New line/New paragraph

Ny rad/Nytt stycke

Raderar det markerade, fungerar på hel mening. Kan upprepas i flera steg.

Scratch that

Ta bort

Ångrar det senaste kommandot.

Undo that

Ångra

Markerar det du senast sa så att du kan ändra dig.

Correct that

Korrigera

Formaterar texten, här fetstilt och versalt.

Bold that/Cap that

Ändra till fetstil/Ändra till versaler

Ställer markören överst i dokumentet.

Top of document

Början av dokumentet


För vissa kommandon finns flera alternativ, så de flesta kan hitta det uttryckssätt som passar dem bäst. Exempel: ”Ändra till fetstil” kan även sägas ”Fetstil” eller ”Gör till fetstil”. Du kan också skapa egna röstkommandon för specialfunktioner du vill automatisera.



En användares erfarenheter

Rolf är en av kunderna hos XNX Data och har använt tekniken ett par år. Det tog honom ungefär ett halvår att lära sig styra datorn med rösten. Han visste då inte hur viktigt det var att börja med att ösa in sin egen vokabulär i programmet och hade inte heller rätt mikrofon för arbetsmiljön.

Rolf har kommit på ett knep för att komma runt korrekturläsningsproblemet. När han ska skriva längre texter kör han med en bandspelare bredvid sig på skrivbordet. Efter dikteringen spelar han upp sitt band samtidigt som han parallellt läser den inskrivna texten på skärmen. Denna textkontroll gör att han direkt snappar upp när programmet har gjort en feltolkning.

– Det var först i slutet av 2004 som det tekniska genombrottet kom. Det var en kombination av att tekniken för taligenkänning blev bättre och att datorerna blev snabbare och mer processorstarka, säger Karl-Evert Wannberg på XNX Data.

Om fem till sex år kommer 30 procent av de engelskspråkiga användarna att använda ett röststyrningsprogram, tror Karl-Evert Wannberg.


Kom i gång med röststyring





Du kalibrerar mikrofonen när du första gången använder programmet och sedan varje gång du byter miljö.




När du justerar mikrofonen ingår det både att tala och att tiga så att programmet fångar upp det normala bakgrundsljudet i rummet.




Resultatpilen ska peka någonstans på det gröna området markerat OK. Annars får du göra om mikrofonkalibreringen för att få bästa möjliga förutsättningar att tala med datorn.





Röststyrningsprogrammet syns som en liten list ovanför det program du arbetar i. Till höger på skärmen visas några av de kommandon du kan använda för att röststyra ordbehandlingsprogrammet.



Viktigt välja rätt mikrofon

Som ny användare börjar du med att skapa en personlig talarprofil. Det började även vi med när vi skulle testa programmet. Valet av mikrofon är viktigt, liksom att mikrofonen placeras rätt. I vårt fall ingår usb-headsetet Plantronics DSP100 med sekretessknapp i paketet. Olika röster klarar sig olika bra i programmet och en lite ljusare röst är i allmänhet något lättare för programmet att uppfatta.

Ska du köra det engelskspråkiga Dragon får du välja mellan amerikansk och brittisk engelska. Skillnaden, förutom uttalet, är att vissa ord stavas på olika sätt samt att kommandona skiljer sig lite åt. På amerikansk engelska får du till exempel säga period för punkt, medan du på brittisk engelska får säga full stop.

Efter att ha kalibrerat mikrofonen är det dags att börja läsinlärningen. Ju fler texter, desto bättre lär sig programmet din röst.

Ibland kan du behöva träna programmet på vissa ord. Det kan handla om nya ord från bakgrundsmaterial som du har läst in med Precisionsbyggaren eller befintliga ord eller kommandon som programmet har svårt att tolka. Ett vanligt exempel är kommandona ”punkt” och ”personnummer”, som kan behöva tränas speciellt. Det gäller även kommandot ”numerisk”, som används när du vill skriva tal upp till och med tolv med siffror. Annars skrivs de automatiskt ut med bokstäver enligt den allmänna grammatikregeln.

Precisionsbyggaren är det verktyg du använder för att läsa in bakgrundsmaterial i ett nytt ämne. Med Precisionsbyggaren får du en högre träffbild på nya ämnesområden. Den är också att rekommendera när du börjar använda programmet för att skräddarsy det efter just dina ämnen och ditt sätt att skriva.

Det finns en mängd inbyggda kommandon i programmet. Räcker de inte går det att skapa egna.


Fem tips för bästa röstresultat
1.

Skapa olika talarprofiler för olika ämnesområden.

2.

Slarva inte med läsupplärningen. Ju fler texter, desto bättre resultat.

3.

Om du märker att du ofta får problem med vissa ord eller kommandon – träna de här orden specifikt i programmet.

4.

Använd en kvalitetsmikrofon som är anpassad efter ljudmiljön.

5.

Kör Precisionsbyggaren så fort du ska läsa in ett nytt ämnesområde. Ju större vokabulär i ämnet programmet har, desto bättre resultat.




Voice Xpress Professional

Vi började med att testa det svenska röststyrningsprogrammet Voice Xpress Professional med det headset som medföljer. Vi hade tagit fram en testtext om bildredigeringsprogram som lästes in ett antal gånger efter olika mängd upplärning.

Samma text lästes också med en avancerad studiomikrofon för att jämföra skillnaden. Likaså läste Karl-Evert Wannberg på XNX Data texten med sin betydligt mer upplärda talarprofil och sin större vana vid diktering.

Resultatet skiljer sig mycket beroende på om vi hade använt Precisionsbyggaren innan eller inte. De tre testinläsningar vi gjorde med olika mängd upplärningstexter gav faktiskt ett lite förvirrande resultat. Ju mer vi hade lärt upp systemet, desto fler fel blev det. Det kan handla om att vi läste extra tydligt första gången och sedan talade aningen otydligare, det är svårt att säga. Felprocenten hamnade i alla fall på mellan 14 och 26 procent.

När vi använde Precisionsbyggaren identifierade den åtta okända ord i den svenska texten. Efter att vi kört den var vi nere i fem felprocent och till och med fyra procent när vi använde en mikrofon av studiokvalitet.

Det var samma resultatnivå som vår referensperson Karl-Evert Wannberg hamnade på. Efter bara någon timmes inlärning var vi alltså lika duktiga på att läsa som han! Däremot hade han ett stort försprång genom att kunna programmets alla kommandon, något vi inte hann lära oss i någon större omfattning.


”Efter bara någon timmes inlärning var vi alltså lika duktiga som vår erfarne referensperson.”



Värt att notera var att särskrivningarna försvann när programmet hade lärt sig alla ingående ord. När ordet är okänt är det mer sannolikt att programmet tolkar det du säger till något som särskrivs. Ett exempel är märketiketter, som flera gånger blev Marcus etiketter, och fotoredigeringsprogrammet, som blev foto redigeringsprogrammet.


Dragon Naturally Speaking Pro 9

Den engelska delen av testet gjordes inte riktigt lika omfattande, men vi körde igenom tre olika upplärningstexter samt testade med Precisionsbyggaren. Även här ser vi en markant skillnad mellan text som programmet är intränad på och helt främmande text.

Här kan vi dock också se en upplärningsförbättring från 17 procents fel ned till sju procent beroende på mängden uppläsningsträning. Efter att vi dessutom kört Precisionsbyggaren var vi nere på fyra procent, alltså i samma nivå som med det svenska programmet. En till två felprocent är vad tillverkaren uppger att du kan komma ned till, men då krävs kanske engelska som modersmål.

Roliga fel som säkerligen beror på vårt uttal var sudden camera i stället för certain camera, och shed them [the photos] in imaginative ways i stället för share them.


Vanliga skrivfel

Nästa sak som är intressant är att jämföra med hur många vanliga skrivfel vi skulle göra på samma text om vi helt enkelt skrev in den på datorn. Ingen text blir ju någonsin perfekt på en gång, oavsett hur vi matar in den i datorn. Därför körde vi ett traditionellt snabbt dikteringstest av samma texter à la maskinskrivningsprov. Inga fel fick rättas till, även om vi upptäckte dem omedelbart efter att vi hade gjort dem.

Resultatet blev åtta skrivfel på den svenska texten på 171 ord och elva skrivfel på den engelska texten på 188 ord. Det motsvarar fem respektive sex procent, alltså helt i paritet med resultatet för intalad text efter användning av Precisionsbyggaren.

Vid ett tillfälle råkade vi trycka ned Caps Lock och det känns skönt att veta att vi slipper den typen av misstag vid röststyrning. Det är få skrivfel som är så retliga som en oavsiktlig Caps Lock i en miljö där det inte går att rätta till med skift och F3.

Eftersom det går så mycket snabbare att tala in en text jämfört med att hamra in den via tangentbordet blir testresultatet här ganska givet. Testvinnare är solklart den svenska versionen, för vi är ju inte direkt bortskämda med anpassningar för vårt lilla språk.


Testresultat



Det var en viss tröskel att komma igång
, särskilt på engelska som inte är vårt modersmål. Upplärningstexterna på engelska var långa och innehöll en del svåra ord. Voice Xpress vinner på att det är oerhört roligt med ett kompetent program som klarar svenska.



TechWorlds slutsats

Är den här typen av program värda pengarna och den tid det tar att lära upp systemet? Det beror helt på dina behov. Vi ser tre givna grupper: du som skriver en mycket stor del av dagarna, du som har svårt att stava och kanske är dyslektiker och du som har problem med musarm eller liknande.

Skriver du bara kortare stunder ibland är det nog svårt att få valuta för pengarna. Det blir dessutom en väl hög inlärningströskel, eftersom du inte får tillräckligt med övning.

Ett annat givet krav är att du verkligen är intresserad av att lära dig den nya tekniken. Svarar du ja på de här punkterna bör du kolla att röststyrningsprogrammet klarar de program du arbetar med dagligen. Sedan är det bara att anmäla sig till en kurs. Glöm inte att ta med en ask halstabletter och en flaska vatten, bara.


Fakta & betyg

Dragon Naturally Speaking Pro 9

Voice Xpress Professional

Tillverkare

Nuance

Voxit

Webb

nuance.com/dragon

www.voxit.se

Pris, kr exkl moms

11 000 (enbart program 2 000)

Standard 13 900, Juridik 14 900, Medicin 18 900

Vad ingår

program, Plantronics usb-headset DSP100, 1 halvdagsutbildning, 30 dagars fri telefonsupport

program, Plantronics usb-headset DSP100, 1 halvdagsutbildning, 30 dagars fri telefonsupport

Språk

engelska, tyska, franska, spanska, nederländska, italienska

svenska

Antal aktiva ord

250 000-300 000

50 000-60 000

OS-krav

Windows 2000 SP4 eller senare/XP SP1 eller senare

Windows 98/ME/2000/XP/NT 4 SP4/Vista

Systemkrav

Pentium 1 GHz eller snabbare, 512 MB minne, 1 GB hårddisk, usb, cd-läsare för installation, webbanslutning för aktivering. Om annan mikrofon används än den som ingår i paketet behövs även 16-bitarsljudkort på 11 KHz.

Pentium III 500 MHz eller snabbare, 512 MB minne, 350 MB hårddisk, usb, cd-läsare för installation. Om annan mikrofon används än den som ingår i paketet behövs även 16-bitarsljudkort på 11 KHz.

Talhastighet, uppgiven

160 ord/minut

140 ord/minut

Inlärningstid

1-2 tim

4 tim

Importformat

wav, wma, mp3

wav

Tillbehör

andra mikrofoner för olika ljudmiljöer och situationer (2 000-3 000 kr), dikteringsapparat Olympus DS 4000 med 4 tim utbildning, mikrofon och 30 dagars fri telefonsupport (9 100 kr)

andra mikrofoner för olika ljudmiljöer och situationer (2 000-

3 000 kr), dikteringsapparat Olympus DS 4000 med 4 tim utbildning, mikrofon och 30 dagars fri telefonsupport (9 100 kr)

Komma igång

4 av 10

5 av 10

Upplärningstexter

6 av 15

10 av 15

Kommandon

8 av 15

10 av 15

Funktionalitet

35 av 40

35 av 40

Flexibilitet, mångsidighet

18 av 20

15 av 20

Totalt

 
71
av 100
 
  75
av 100
 


Foto: Andreas Eklund