V USA se chystá zákon řešící autorská práva dat k A.I.

24. dubna 202424. dubna 2024 loukota 0 Comments BY-NC-SA chatgpt, právo, science, strojové učení, umělá inteligence, věda

TLDR: Návrh zákona by prozatím řešil jen původní hudebních skladeb, v budoucnu by se ale mohl stát šablonou i pro jiné typy trénovacích dat. Zdroj hír.

Na počátku každé technologie panuje Divoký západ – nejenže vynález často naruší dosavadní, starší vynálezy, ale také na něj neexistuje lautr žádná legislativa. Hloupé politiky a právníky totiž nikdy nenapadne, jak řešit do té doby nepředstavitelnou technologii nějakým zákonem dopředu! Právě fčil se ve většině ohledů nacházíme v tomto stavu s AIčkem – přičemž je jasné, že stávající stav je pouze dočasný. Střípkem toho, jak regulace AI bude vypadat, je i návrh zákona řešící původ trénovacích dat.

Blíží se to?

Aby umělá inteligence mohla uměle inteligencovat, potřebuje data, na kterých se “učí”. Takže k tomu, že na obrázku kyblíčku a lopatičkou správně rozeznat kyblíček s lopatičkou, ji nejprve někdo musí ukázat XYZ množství jiných fotek, kde bude kyblíček a lopatička (konkrétně označené typicky lidmi). Nemusí přitom nutně platit, že “více je lépe” – kvalitnější balíček zdrojových dat je lepší než obecnější balík – ale v zásadě je pořád k natrénování AIčka nutné mít XYZ množství dat, které budou obsahovat vaše téma (kyblíček a lopatičku v tomto případě).

Problém je, že dnešní AI modely potřebují poměrně velké porce dat – budoucí AIčka nejspíše už budou schopni generalizovat lépe (tj. naučí se z menšího množství dat). A tuhle velkou porci dat je nutné někde vzít. Takže do svého balíku fotek kyblíčku a lopatičkami dáte nejenom snímky, které jste pořídili vy, ale třeba i snímky, o které požádáte své známé – nebo které stáhnete různě po internetu bez vědomí a svolení původních tvůrců. Dost často přitom přesně těch tvůrců, jejichž profese je nástupem AIčka více ohrožená…

Je asi nasnadě, proč taková praktika smrdí mnoha etickými průsery. Nový návrh zákona, který předložil americkému sněmu reprezentant Adam Schiff, může však být krokem k nápravě. Jmenuje se Generative AI Copyright Disclosure Act a nařizoval by společnostem zabývajícím se umělou inteligencí, aby v plném rozsahu zveřejňovaly veškerá díla chráněná autorskými právy, která používají při trénování svých modelů umělé inteligence. Tyto informace si přitom momentálně mohou nechávat pro sebe!

Taková transparentnost přitom není zaměřena pouze do budoucna, ale platí i zpětně, což může mít dopad na řadu již používaných systémů umělé inteligence.

Zatím jen pro hudbu

Podle nového návrhu zákona by vývojáři AI museli Úřadu pro autorská práva předložit úplný seznam hudebních (ano, zatím jde jen o songy) materiálů chráněných autorským právem, které ve svých modelech využívají. K tomuto předložení by muselo dojít 30 dní před zveřejněním jakéhokoli modelu umělé inteligence nebo vždy, když dojde k významným aktualizacím tréninkových dat. Za nedodržení by přitom hrozily finanční sankce, přizpůsobené velikosti a historii dodržování předpisů společností, které se provinily.

Navzdory limitaci na hudbu by zákon mohl být šablonou pro podobnou regulaci i vizuálních nebo textových modelů. Legislativa přitom přichází v reakci na rozšířenou praxi firem zabývajících se umělou inteligencí, které shromažďují rozsáhlá data z webu, často bez řádného licencování nebo uznání původních tvůrců.

Předložení tohoto zákona vyvolalo souhlasné reakce z různých koutů kreativního průmyslu. Svou podporu vyjádřily hudební skupiny, fotografové, herci a spisovatelé, kteří zdůraznili zásadní potřebu etických zásad při vývoji umělé inteligence. Tyto hlasy z oboru tvrdí, že transparentnost je prvním krokem k tomu, aby tvůrci byli odměněni a oceněni za svůj přínos k technologii, která přetváří náš svět…

Různé úhly pohledu

Zejména poslední odstavec bude dost možná triggerovat některé zastánce AIček, protože návrh bude snadno působit dojmem „zaprděný hudební průmysl se snaží torpédovat AIčka v obavě o své zisky”. Nicméně, taky se na to dá dívat obráceně – hudební průmysl má silnější lobby než tvůrci digitálních ilustrací…

Pomineme-li, že by podobné nařízení (zatím jen v rámci USA) bylo určitým limitem pro tvůrce strojových učení, neviděl jsem zatím žádný dobrý důvod, proč ponechávat data v utajení. Naopak mi připadá, že podobný krok je jediný způsob, jakým se generativní modely mohou zbavit své pověsti plagiátorských mašin. Nakolik však nynější zákon bude předzvěstí budoucích legislativních kleští pro AIčka, a nakolik nakonec nemusí najít podporu, však budeme muset posečkat.

Nicméně, i onen Divoký západ byl nakonec zkrocen, byť se tomu nestalo v cuku letu!

[Ladislav Loukota, JRN]

Vědátor vzniká v dílně spolku studentů a popularizátorů vědy UP Crowd za podpory MUDRstart, který tvoří přípravné testy pro studenty vysokých škol. Krom různých autorů projekt jako šéfredaktor vede Ladislav Loukota – jeho kontaktní mail je vedatororg@seznam.cz