Verk av 32 DnF-medlemar nytta til trening av Kunstig intelligens

Vi har no fått ein oversikt over verk skrive av norske skjønnlitterære forfattarar som er blitt nytta til KI-trening.

Leder Brynjulf Jung Tjønn

Administrasjonen i Den norske Forfatterforening har sjekka alle våre 750 medlemar opp mot den søkbare databasen til The Atlantic og funne ut at 32 av våre forfattarar diverre er ein del av datasettet Books3, som har blitt brukt av dei store teknologiselskapa til å trene sine språkmodellar, som til dømes Meta sin LLaMA og OpenAI sin ChatGTP.

Alle dei 32 forfattarane og forlaga deira er blitt informerte om dette av Den norske Forfatterforening. Viss våre medlemar ikkje har høyrt frå oss, er dei altså ikkje inkludert i datasettet.

Dei fleste verka av norske forfattarar er omsette titlar på engelsk engelsk, men også nokre titlar på norsk, dansk, svensk, tysk og fransk.

Kvifor har vi gjort dette?

Nokre av våre medlemar har mange av sine verk i Books3, og det kan vere ein ganske skremmande melding å få. Samtidig er det viktig å få ei konkret oversikt over omfanget, slik at Forfatterforeningen og resten av bokbransjen kan arbeide vidare med å ivareta forfattarane sine rettar. Det er også viktig at forfattarar som ikkje er ein del av Books3 får beskjed om dette. I tillegg har forfattarane rett til å få informasjon når deira opphavsrettslege materiale er blitt misbrukt.

Piratkopierte verk

Books3 er eit såkalla «datasett», som består av minst 191 000 litterære verk. Desse verka er piratkopierte verk som er blitt samla i Books3 utan å spørre opphaver om tillatelse. Fram til no har det vore nærast umogleg å finne ut kva slags verk som er blitt samla i dette datasettet, men ein har innimellom funne spor av ulike verk av amerikanske forfattarar. Difor har fleire amerikanske forfattarar gått til søksmål mot OpenAI.

Måndag 25. september 2023 publiserte det amerikanske magasinet The Atlantic ein database kor ein kan søke etter verk og forfattarar som er blitt samla i Books3. The Atlantic klarte å knekke ein kode ved å finne ulike isbn-nummer. Dette gjer at det no endeleg er mogleg å få ein oversikt over kva verk som er blitt ulovleg brukt til å trene kunstig intelligens.

Fleire av dei store teknologiselskapa har brukt Books3 til å trene sine språkmodellar. Meta seier sjølve at verka i Books3 er blitt brukt til å trene modellane, men innhaldet i verka er ikkje tilgjengelege gjennom språkmodellane. Viss dette stemmer, så betyr det at ditt verk er blitt brukt ein gong til å trene språkmodellen, men er ikkje mogleg å bli lasta ned og lest som heilskap.

Sjølv om dette skulle vere riktig, har dei store teknologiselskapa likevel brote opphavsretten, som vi forfattarar kjempar så sterkt for.

Kva skjer no?

Diverre er verka allereie blitt brukt til maskinlæring og det er ikkje mogleg å reversere dette. Men verka er, viss teknologiselskapa seier sanninga, altså ikkje gjort tilgjengeleg og kan ikkje misbrukast vidare av dei som nyttar generativ kunstig intelligens.

Difor er det viktig at heile bokbransjen no utforskar og arbeider vidare med kva rettar forfattarane har i denne saka, samt at styresmaktene utviklar reguleringar som sikrar opphavsretten.

Å gå til søksmål mot dei store internasjonale teknologiselskapa i verda, er komplisert, noko som kjem fram i Aftenposten 28. september. Der hevdar jusprofessor ved UiO, Ole-Andreas Rognstad, blant anna at «det er flere prosesser og regler i EU som kan gjøre det juridisk komplisert å vinne frem med et søksmål.»

Difor kan søksmålet til dei amerikanske forfattarane mot OpenAI bli viktig i denne samanheng. Dei store teknologiselskapa er vanskeleg å kjempe mot, men viss dei amerikanske forfattarane vinn fram, kan det gjere det enklare for forfattarar i resten av verda å gå til rettsleg skritt. Vi kjem til følgje utviklinga i denne saka tett og ha kontakt med den amerikanske forfattarorganisasjonen Authors Guild. Vi kjem også til å ha tett kontakt med våre søsterorganisasjonar i norden og Europa ellers.

Eit politisk ansvar

Samtidig vil vi også ansvarleggjere norske politikarar om at det no hastar med å få på plass KI-reguleringar som vernar opphavsretten, og at dei må jobbe tett opp mot EU og EUs AI Act, som blant anna krev at teknologiselskapa skal vere transparente når det gjeld kva materiell dei brukar til å trene KI.

Den norske Forfatterforening reagerer sterkt på opphavsretten er blitt misbrukt og vil også samarbeide med dei andre skribentorganisasjonane, forlag og agentar for å ivareta dei misbrukte forfattarane sine rettar og interesser på best mogleg måte.

Les VG-saka her: Norske bøker brukt til å trene AI-roboter

Les meir på Forfatterforeningen.no: Verk av norske forfattere brukt til KI-trening

Brynjulf Jung Tjønn

Leiar i Den norske Forfatterforening