Verk av norske forfattere brukt til KI-trening

Mandag publiserte det amerikanske tidsskriftet The Atlantic en database hvor man kunne finne ut hvilke verk som er blitt brukt til å utvikle store språkmodeller via datasettet «Books3». Flere verk av norske forfattere er blitt brukt til trening av generativ Kunstig intelligens.

Av Brynjulf Jung Tjønn, Leder i Den norske Forfatterforening

De store internasjonale teknologiselskapene har gjort det vanskelig å finne ut hva slags materiale de har brukt til å utvikle og trene generativ Kunstig intelligens. Vi vet at det som er fritt tilgjengelig på nettet er blitt brukt, men hva slags opphavsrettslig materiell teknologiselskapene har benyttet, har de ikke ønsket å dele med omverden.

Det har vært kjent at datasettet «Books3» inneholder en stor mengde litterære verk. Frem til nå har man først og fremst funnet verk av engelskspråklige forfattere, noe som førte til at mange amerikanske forfattere tidligere i år gikk til søksmål mot OpenAI.

VG har gjort oss oppmerksomme på at tidsskriftet The Atlantic har publisert en database hvor det nå er mulig å søke opp hva slags bøker som er blitt brukt gjennom datasettet «Books3». Der finner vi flere norske forfattere og deres verk. Noe antar vi er originalt norsk innhold, ettersom tittelen som oppgis er norsk, mens mye ser ut til å være oversettelser til engelsk.

Les VG-saken her: https://www.vg.no/rampelys/bok/i/kEjA3A/norske-boeker-brukt-til-aa-trene-ai-roboter-det-er-fullstendig-uakseptabelt

Vi er dessverre ikke overrasket over at norske verk også er blitt brukt til trening av språkmodeller. Det er symptomatisk for hvordan de store, internasjonale teknologiselskapene opererer på. De har en gjennomgående forretningsmodell der de samler inn folks data uten å spørre om lov først. Så dette er et problem som gjelder internasjonalt og alt av innhold, ikke bare norske forfattere.

Teknologiselskapet Meta, som har utviklet språkmodellen LLaMA, og som har benyttet datasettet «Books3», mener det er uproblematisk og sier til The Atlantic: «because neither the LLaMA model nor its outputs are “substantially similar” to the authors’ books.»

Verkene kan altså ikke gjenskapes eller hentes ut fra språkmodellen, hvis dette stemmer, men det er likevel et brudd på opphavsretten som forfattere verden rundt kjemper for å beskytte.

Vi vil følge nøye med på de amerikanske forfatternes søksmål mot OpenAI og vil ta kontakt med forfatterorganisasjonen Authors Guild for å høre hvordan de jobber. I sommer ble det også kjent at danske verk er blitt brukt til samme formål. Vi vil ha kontakt med Dansk Forfatterforening om hvordan de arbeider med disse sakene.

Det er også et politisk ansvar for at respekten for opphavsretten blir ivaretatt. Dette viser at det haster at myndighetene kommer på banen for å jobbe med strenge reguleringer som ivaratar opphavsretten. Blant annet støtte opp om EUs AI-act, som blant annet har krav om transparent om hva slags materiell teknologiselskapene bruker til trening av språkmodeller.

Vi forsøker nå å få en oversikt over hvilke norske verk og forfattere dette gjelder.

Den norske Forfatterforening vil sjekke alle våre medlemmer opp mot databasen til The Atlantic, slik at vi kan få en fullstendig oversikt over hvem av våre medlemmer som har vært en del av datasettet Books3.

Vi ønsker deretter å gå i dialog med forfattere, forlag og agenter for å finne ut hvordan vi ivaretar de norske forfatternes interesser og rettigheter på best mulig måte.