norsk tidend

Kan robotar skriva på nynorsk?

Mai Lene Fløysvik Hæåk tar kontakt med Norsk Tidend overmelding:
– Datamaskina mi forstår ikkje nynorsk, og eg er avhengig av ho for å fungera i jobb, fortel ho oss.

Kan du utdjupa kva som ersituasjonen din?
– Situasjonen er at eg fekk betennelse i venstre arm første gong i november i fjor og for andre gong i september. Armen var svært vond og hoven, og eg kunne ikkje bruka tastatur. På det verste var det heller ikkje mogleg å bruka mobil, fortel Mai Lene til Norsk Tidend.
Mai Lene arbeider som politisk rådgjevar i ein organisasjon, og har tidlegare jobba mykje med skriving. Ho er dermed avhengig av datamaskin.

– Jobben var svært grei og la godt til rette for meg. For å kunna halda fram med å fungera i jobb forsøkte
eg å bruka tekst-til-tale og taleattkjenningsteknologi.

Men dette skulle visa seg å vera eit større problem enn nokon først trudde.
– Teknologien funkar rett og slett ikkje! seier ho irritert.

LANGT ATT: Mai Lene har vore nynorskbrukar heile livet. Historia hennar er ei av mange som viser at det er ein lang veg å gå for å ha språkleg jamstilling i den digitale verda. Foto: Privat

Forstår ikkje nynorsk

Mai Lene har vore nynorskbrukar heile livet. Ho ønskjer derfor å bli transkribert på nynorsk. Men
uansett kor mykje ho har prøvd, har ikkje dette vore mogleg å få til ordentleg.

– Taleattkjenninga i Word forstår enkelt og greitt ikkje nynorsk. Det blei fort klart at taleattkjenninga ikkje forstår dialekta mi, men det funkar heller ikkje om eg les inn seint og på normert nynorsk, fortel Mai Lene oppgitt.

– Det var allereie utfordrande å fungera ordentleg i jobb fordi eg hadde smerter. Eg var svært motivert
for å halda fram med å jobba. Då var det svært frustrerande at det rett og slett ikkje gjekk fordi eg ikkje kunne bruka språket mitt, legg ho til.

Kva mobiltelefon og datamaskin er det her snakk om?
– Apple iPhone og ei HP Windows-maskin med standardtastatur og tale-til-tekst i Word. I utgangspunktet kan du få nynorsk tastatur og rettskriving, men ikkje på diktering.

– Eg har tastatur med støtte for nynorsk, men likevel blir eg retta tilbake til bokmål. Det krev meirarbeid frå meg. Det er ganske provoserande at teknologien rett og slett ikkje funkar for meg som nynorskbrukar.

Gjeld dette alle tastatur og datamaskiner?
– Det finst andre tastatur med rettskriving du kan lasta ned, men det burde ikkje vera naudsynt for ein tredjepart å levera dette. Dei store aktørane, som Apple, burde ha nynorskstøtte som standard. Nynorsk er likestilt med bokmål som eit norsk skriftspråk. Då må dei levera fullverdige tenester og rettskriving på begge språka i Noreg, seier Mai Lene bestemt.

Det er ganske frustrerande at teknologien rett og slett ikkje funkar for meg som nynorskbrukar

Mai Lene Fløysvik Hæåk

Heldigvis eit forbigåande problem

Nokon ville vel spurt deg om du ikkje kan bruka bokmål mellombels når du er sjuk?
– For meg var dette forbigåande. Men for dei som av andre grunnar ikkje kan skriva, eller treng å bruka taleattkjenning og diktering, er det eit problem. Det er synd at dei ikkje skal kunna bruka det språket – eller den dialekta – dei ønskjer. Det handlar om tilgjenge og å inkludera alle. Det er mange som brukar nynorsk, og fleire som treng digitale hjelpemiddel, i Noreg, svarar Mai Lene.

I dag er Mai Lene heilt frisk og tilbake i full jobb. Det har ikkje lukkast Norsk Tidend å få tal på kor mange som er avhengige av språkteknologi eller liknande hjelpemiddel i kvardagen.

Nynorsk er ikkje standard hjå Microsoft

Det mest brukte skriveprogrammet i dag er Microsoft Word som ein får gjennom Office 365. Bokmålsbrukarar vil finna eit diksjonsverktøy direkte innebygd i Word, men diverre har ikkje Word støtte for nynorskdiksjon. I år kjøpte Microsoft opp «Dragon Naturally Speaking», som i følgje ei kjelde Norsk Tidend har snakka med, skal ha gode nynorskfunksjonar. Dette er tredjepartsprogramvare, som Norsk Tidend har fått tilbod om å testa. Det har me til no ikkje takka ja til.

Sjølv om Microsoft eig programvare med støtte for nynorsk, er ikkje dette eit standardtilbod i tenestene til Microsoft. Det har ikkje lukkast Norsk Tidend å få kontakt med Microsoft for kommentar om kvifor.

Dansk selskap med ansvar for nynorsk

Me la fram problemstillinga til Mai Lene for det danske selskapet Dictus over e-post. Dictus leverer mellom anna taleattkjenning og transkripsjonsteknologi for referatskriving til Stortinget i Noreg, i tillegg til Folketinget i Danmark, Danske Radio og danske TV2. Eitt av krava frå Stortinget var at dei måtte levera transkripsjon på både bokmål og nynorsk, og at transkriberinga skulle skje direkte frå talarstolen i sanntid.

Dictus har ikkje noko med Mai Lene eller situasjonen hennar å gjere, men Jens Otto Kjærum, administrerande direktør i Dictus, fortalde Norsk Tidend over videolink om korleis tale-til-tekst og taleattkjenning fungerer, og kva som er utfordringane og moglegheitene med teknologien.

LITE SELSKAP MED STORT ANSVAR: Dictus er eit lite dansk selskap som fekk det store oppdraget å levera språkteknologi
til Stortinget og Folketinget. Foto: Dictus

Undervurderte utfordringane med nynorsk

– Me undervurderte heilt klart omfanget av utfordringar med nynorsk, seier Jens Otto Kjærum til Norsk Tidend.

Teknologien til Dictus baserer seg på det dei kallar for «akustisk modell». Det vil seia at datamaskina blir trena opp til å kjenna att lydar, som så blir gjort om til tekst.

– Grunnleggjande er det derfor ei utfordring at nynorsk er eit skriftspråk og ikkje eit talemål. Ei anna utfordring er mengda dialektar frå talarstolen. Til samanlikning talar politikarane normert riksdansk i Folketinget, som gjer avstanden mellom det som er sagt og det som blir skrive, kortare. Men det har gått stadig betre og me er optimistiske for utviklinga, fortel Kjærum.

Me undervurderte heilt klart utfordringane med nynorsk

Jens Otto Kjærum, administrerande direktør i Dictus

Kva er grunnlaget de brukar for å læra maskina bokmål og nynorsk?

– Våre data baserer seg på referat frå Stortinget dei siste 20 åra. Ei utfordring er at det har vore store forskjellar mellom bokmål og nynorsk i mengda data.

– Omtrent ein tiandedel av den totale datamengda på 700 timar med tale var på nynorsk når me byrja. No er det nesten femdobla: 200 timar med nynorsk tale. Det er likevel berre omtrent ein tredjedel av det som er tilgjengeleg på bokmål, svarar Kjærum.

Gjer ein noko framsteg i å læra maskinen både bokmål og nynorsk?

– Lenge har me operert med éin modell for taleattkjenning for norsk, som blir transkribert på både bokmål og nynorsk samstundes. Då korrigerer me den transkripsjonen som er på det språket representanten har ønskt. No har me derimot nok data til at me kan laga to separate modellar: norsk bokmål og norsk nynorsk. Det vil gjera det enklare å byggja opp ordtilfanget og gjera maskina betre på både bokmål og nynorsk, legg Kjærum til.

UTFORDRANDE NYNORSK: Jens Otto Kjærum er administrerande direktør i Dictus. Han kjenner att problemstillinga til Mai Lene og vart sjølv overraska over kor vanskeleg det er å læra datamaskiner
nynorsk. Foto: Privat

Kan bli betre – under visse høve

Så det er altså mogleg å levera teknologi som kan kjenna att nynorsk tale, og transkribera tale til nynorsk tekst?

– Me leverer teknologi for spesifikke behov og situasjonar. Når situasjonane er avgrensa, er det mogleg å læra dei eit ganske godt ordtilfang og svært presis attgiving av det som blir sagt. Tale-til-tekst på dansk gir til dømes no i fleire situasjonar under 1 % feil.­ Så vil eg seia at me ikkje konkurrerer med aktørar som Google, Microsoft og Apple. Me leverer ikkje maskinvare eller skriveprogram, men dikteringsteknologi for heilt spesifikke situasjonar.

Så det er behov for etterarbeid på den transkriberte teksten?

Jens Otto gir ordet til Egil Albertsen, som jobbar med norsk rettskriving i Dictus:

– Det er vanskeleg å få maskina til å skriva heilt rett syntaks. Maskina vil til dømes skriva «gjerast», men ikkje «blir/vert gjort». Slike omskrivingar er det vanskeleg å læra maskina, svarar Egil Albertsen.

– Me jobbar heile tida med å få automatisert ulike omskrivingar og korreksjonar. Maskina slit med å høyra forskjell mellom a- og e- infinitiv av seg sjølv automatisk, men ho kan bli programmert til å bruka a- eller e-infinitiv. På same vis slit maskina med genitiv-s.  Taleattkjennaren har blitt trena på referat der det t.d. står «regjeringas», men der talaren i mange høve har sagt «regjeringa sin/si/sitt/sine». Ein konsekvens av dette, som var utilsikta, blir då at maskina oppfattar konstruksjonen «[substantiv] + sin/si/sitt/sine» som «[substantiv] + -s».

SYNTAKS: Taleattkjenningsroboten slit med syntaksen på nynorsk, fortel Egil Albertsen, rettskrivar i Dictus. Foto: Privat

Er det nokon som bestemmer når kvaliteten på nynorsken er god nok?

Jens Otto svarar:

– Ein del av avtalen med Stortinget er at me skal oppdatera vokabularet og driva vedlikehald på systemet i 6 år. Ein gong i året må me trena opp systemet med nye talarar. Etter eitt år har me om lag 20­–30 timar meir lyd på nynorsk. I tillegg kjem det stadig vekk nye ord og situasjonar som krev ei oppdatering av vokabularet.

– Om me skal levera på nytt når kontrakten går ut, vil me moglegvis nytta ein annan teknologi enn det som er no. Det skjer mykje på feltet heile tida, svarar Jens Otto Kjærum.

Vil Dictus SUN vera tilgjengeleg for privatpersonar eller mindre bedrifter?

– Dictus er ikkje tilgjengeleg til alminneleg, privat bruk enno, men me jobbar med det, avsluttar Kjærum.

Vemund Norekvål Knudsen