norsk tidend

Maskinene og språket

Det er ikkje berre vi menneske som snakkar og skriv norsk lenger. Er maskinene eit trugsmål eller sjølve redninga for nynorsken og dialektane?

TEKST: ASTRID MARIE GROV

På Langkaia ved Oslofjorden finn vi NTB Nynorsk pressekontor (NPK). Byrået har levert nyheitsstoff på nynorsk til aviser over heile landet i akkurat 50 år, dei siste tolv som ein del av NTB. Nynorsk pressekontor lagar ein del eigne saker, men tilbyr også stoff frå NTB i nynorsk utgåve. 

No for tida går det føre seg eit banebrytande arbeid i lokala til NPK. Godt hjelpt av solid digital kompetanse i NTB byggjer dei opp noko dei kallar ein nynorskrobot, det vil seie eit dataprogram som skal omsetje tekstar nesten automatisk frå bokmål til nynorsk. 

Tidkrevjande å omsetje 

Redaktør Karoline Riise Kristiansen er tydeleg glad for det som skjer. 

– I dag treng vi roboten for å kunne oppfylle samfunnsoppdraget vårt. Absolutt alle typar byråstoff skal vere tilgjengeleg på nynorsk, ikkje berre særskilde kategoriar. For å halde tritt med den stadig større mengda av tilfang, var vi avhengige av betre arbeidsverktøy. Stadig meir av byråstoffet til NTB blir produsert av robotar, og det inneber meir og meir stoff som skal omsetjast. Vi i NPK har rett og slett måtta bruke for mykje tid på omsetjing. Vi håpar at nynorskroboten kan gje oss tid til å lage fleire eigne saker i staden. 

Arbeidet med nynorskroboten tok til for kring eit år sidan, og i desember fekk NPK 800 000 kr
i ekstra støtte frå Kulturdepartementet til arbeidet. Det gav høve til å bruke meir ressursar til prosjektet, og i lag med NTB brukar Nynorsk pressekontor no ein god del tid på å få roboten så god som råd. 

– Heile redaksjonen i NPK er involvert i dette språkarbeidet, med journalist Hallvard Østrem i spissen. Vi rettar og redigerer dei maskinomsette tekstene, og registrerer det som blir feil eller manglar. Østrem leier arbeidet med å lage og implementere reglar slik at omsetjingane roboten gjer, skal bli så gode som mogleg. I tillegg har vi fått ein fast kontakt i Språkrådet som vi kan rådføre oss med. 

Det finst fleire metodar for å få ei maskin til å lære seg å omsetje mellom språk. I utgangspunktet hadde NPK tenkt å nytte eit korpus av parallelle tekstar, seier Karoline Riise Kristiansen. 

– I NPK og NTB har vi eit korpus på kring 40 000 tekstar som finst både på bokmål og nynorsk. Etter eit par månader såg vi at det likevel var for lite, sjølv om vi har forstått at dette er eit av dei største parallellkorpusa i Noreg. Det krev enormt mykje data i eit slikt prosjekt. Ikkje ein gong Språkbanken, som er ei nasjonal korpussamling administrert av Nasjonalbiblioteket, har eit stort nok parallellkorpus. Så vi skjøna fort at vi måtte finne på noko anna.

Løysinga var ikkje langt unna.

Oterhals er data scientist i NTB og såg òg pro- blema ved den klassiske korpusmetoden. 

– Maskinlæringa som vi starta med, er ein svært vanleg og populær teknologi, som til dømes blir bruka i Google Translate. Problemet med han er at du treng så veldig mange parallelle tekstar for at resultatet skal bli bra. Du treng faktisk så mange at alle språk under 10–15 millionar bru- karar fort blir for småe. Eit tilleggsproblem for norsk er alle dei valfrie formene og normendrin- gane. I praksis er ikkje tekstar før 2012 brukande for oss, sidan dei følgjer ei anna rettskriving.

Teknologi frå Spania

Oterhals fann i staden fram til Apertium, ein fri programvare for omsetjing av nærståande språk, som NTB sidan har bruka for å utvikle nynorskroboten. Teknologien er utvikla i Spania, i fyrste omgang for å omsetje mellom dei nærskylde spanske språka kastiljansk og katalansk. Han blir formidla til omverda gjennom maskinomsetjings- plattforma Apertium, slik at teknologikunnige kan nytte teknologien til å omsetje mellom fleire språk. Då NPK og NTB tok han i bruk, kunne allereie programmet gjere enkle omsetjingar mellom bokmål og nynorsk. NTB og Nynorsk pressekontor avgjorde at dei ville vidareutvikle teknologien slik at han kunne bli god nok til å handtere nyheitsspråket. I dette arbeidet fekk dei òg med seg Kevin Unhammer, ein av dei to som var med på å utvikle Apertium til norsk språk frå starten av.

Utgangspunktet for teknologien i Apertium er at maskina blir mata med både rettingar og mange grammatiske reglar. Så blir det bygd opp ordlister, før orda blir markerte med til dømes ordklasse og bøyingsform. Dette arbeidet blir gjort av journalistane i NPK, kvar einaste dag. Jo Christian Oterhals seier at dei har brukt mykje tid på å lage ordlister for å få roboten til å fungere så godt som råd. 

– Vi har laga lister med 9500 norske gatenamn, vi har lister over alle norske for- og etternamn som er brukte av over 100 personar, og vi har lister over namn i nyheitsspråket som roboten ikkje greier å handtere av seg sjølv. Då Bahareh Letnes vart eit namn i norske media før jul, føreslo omsetjaren til dømes «Bahareh skal letnast» … 

Det er ikkje noko mål at nynorskroboten skal få til ei 100 % feilfri omsetjing. Han kjem alltid til å trenge røkting, fortel Oterhals. 

– Roboten gjer mindre og mindre feil, men ei menneskehand på toppen vil nok alltid vere naudsynt. 

Jo Christian Oterhals meiner alle språk i dag er avhengige av å nytte seg av teknologi, og dermed at teknologi hovudsakleg er eit gode for dei som snakkar varmt om språkleg mangfald. Men han peikar på at teknologien utfordrar den norske tradisjonen med stor valfridom i rettskrivinga. 

– Skal prosjektet med nynorskroboten vere mogeleg, så hadde vi ikkje høve til å handtere heile variasjonen i norma. Så vi brukar både a- og e-infinitiv, men elles held vi oss til éi form. Så den valfridomen som vanlegvis blir framelska her i landet, er nok kanskje ikkje mogeleg å oppnå, iallfall ikkje der som teknologien er no. 

Oterhals seier at mange har vist interesse for arbeidet deira med nynorskroboten, mellom anna offentlege organ. 

– Vi kjem til å selje nynorskroboten til dei som vil ha han ferdig installert og klar til bruk. Men for dei som har litt teknisk innsikt, er dette teknologi det går an å nytte seg av heilt gratis. 

Gjennom arbeidet blir òg Språkbanken oppdatert, fortel Jo Christian Oterhals. 

– Mange av tekstane i Språkbanken er fleire tiår gamle, og dermed dårleg eigna for å bruke i språkteknologi. No kjem vi med mykje nytt materiale som vil kome andre til gode. Det er bidraget vårt attende til fellesskapen for den økonomiske støtta vi har fått. 

Data scientist Jo Christian Oterhals i NTB og sjefredaktør Karoline Riise Kristiansen i NPK Nynorsk pressekontor.

Språkbanken

For å kome den teknologiske utviklinga i møte har styresmaktene oppretta Språkbanken, som er eit offentleg og fritt tilgjengeleg tilbod med innsamla materiale til bruk i utviklinga av språkteknologi. Målgruppa er både offentlege og private aktørar, innanfor så vel forsking som næringsliv. Språkbanken blir drifta av Nasjonalbiblioteket og er i fyrste rekke eit språkpolitisk tiltak. 

– Vi tek mål av oss om å levere språkressursar som gjer at den teknologien vi omgjev oss med i det daglege, er tilgjengeleg på norsk og skjønar norsk, inkludert bokmål, nynorsk og dialektane våre, seier avdelingsdirektør i avdeling for fag og forsking ved Nasjonalbiblioteket, Hege Stensrud Høsøien. 

Men Språkbanken har nyleg fått kritikk. Eit utval sett ned av Språkrådet meinte i fjor at
det kjem for lite ut av pengane det offentlege har brukt på han. Utvalet peika spesielt på at næringslivet finn lita nytte av Språkbanken. Hege Stensrud Høsøien meiner det er gode grunnar til det. 

– Dei siste åra vi har sett ny interesse for store parallellkorpus blant utviklarane av språkteknologi. Teknologiinteressa har svinga frå regelstyrte system, slik Nynorsk pressekontor brukar til å lage roboten sin, til maskinlæring og kunstig intelligens. Det heng nok saman med at fleire har byrja å satse på taleteknologi. Vi i Nasjonalbiblioteket har fått med oss hamskiftet, og saman med Språkrådet tilrådde vi ei satsing på å byggje ein ny generasjon språkdata, allereie før kritikken mot Språkbanken kom. No har vi fleire ressursar til rådvelde, og vi har difor endra satsinga for å møte dei nye behova. 

Høsøien meiner også mange land strir med dei same utfordringane som Noreg på språkteknologifeltet. 

– Dialogen om korleis vi kan sikre våre eigne språk i møte med den internasjonale språkteknologien går føre seg på tvers av landegrensene. Dette er ei stor utfordring som slett ikkje er løyst i andre land heller. Særleg land med småe språk er i den same situasjonen, og eg meiner faktisk Noreg ligg ganske godt an samanlikna med andre. Alt dette meiner eg kritikken frå framtidsutvalet må sjåast i lys av. 

Høsøien seier Nasjonalbiblioteket no er i gang med å få til ein betre dialog med næringslivsaktørar for å få innspel om kva dei treng. I så måte har kritikken frå Språkrådets framtidsutval òg hatt sine fordelar, fortel ho. 

– Saka vart fanga opp av teknologipressa, og i kjølvatnet av det har vi fått meldingar frå mange som ikkje har kjent til Språkbanken frå før. 

Høsøien trekkjer fram fleire døme på næringslivsaktørar som allereie nyttar seg av Språkbanken. 

– TUVA er eit norsk taleattkjenningsprogram, utvikla i Noreg, som mellom anna kan skrive ned det du seier. Det blir til dømes bruka i helsesektoren. I tillegg har amerikanske IBM bruka setningar frå Språkbanken som inneheld kjensleuttrykk, i såkalla sentimentanalyse. I denne samanhengen inneber det å trene eit program til å til dømes lære seg å forstå kor nøgde kundane dine var med det dei fekk. 

Eit av satsingsområda til Språkbanken er å byggje opp parallellressursar som kan bidra til fleire læremiddel på nynorsk. 

– Det er viktig for at kravet i opplæringslova blir oppfylt, og noko vi håpar å kunne kvittere ut ganske raskt, seier Høsøien. 

Fellesskapsprosjekt

Høsøien presiserer at Nasjonalbiblioteket ikkje kan ordne ei vellukka språkteknologisatsing aleine. Fleire delar av det offentlege har ei viktig oppgåve for å sikre at produkt blir tilgjengelege på både bokmål og nynorsk, seier ho. 

– Det er dyrare å tilby løysingar i begge må formene. Difor er det særleg viktig at det blir stilt krav om at offentlege språkteknologiske produkt også skal finnast på nynorsk. Det har ein høve til å gjere i ein anbodsprosess, så eg vil peike på at Difi og Kommunal- og moderniseringsdepartementet sit på ein del av nykelen til språkleg jamstilling i språkteknologiske produkt. 

Språkbanken blir større og betre gjennom fleire ressursar, og det er det mange som kan bidra med. I haust arrangerte Nasjonalbiblioteket og Språkrådet seminaret «Gjenbruk av språkdata gir gevinst». Føremålet med seminaret var å gjere offentleg sektor merksam på kor viktig det er å dele det materialet ein har, og at det er svært mange slags ressursar som kan vere interessante. 

Dersom Noreg skal lukkast med språkteknologisatsinga si, er vi avhengige av at fleire vil dele, meiner Hege Stensrud Høsøien. 

– Mange har vore for lite medvitne om nytta av å dele eigne data. Språkteknologi er som ein snøball, di fleire som utviklar nye tenester, di større kan korpusa i Språkbanken bli. Så vi er veldig glade for det arbeidet Nynorsk pressekontor no gjer med nynorskroboten, for det går rett inn i Språkbanken og kjem difor andre til gode. Eg har generelt møtt svært mykje velvilje og entusiasme i nynorskmiljøa for å dele informasjon. Så eg meiner det er grunn til å vere optimist på vegner av nynorsken i møte med språkteknologien.