Omnibus a návrh úpravy využití osobních údajů v rámci umělé inteligence

Jedním z bodů navrhované úpravy GDPR v rámci Data omnibus je nový čl. 88c GDPR, který má usnadnit využití osobních údajů pro trénink umělé inteligence.

Navrhovaný čl. 88c GDPR doplňuje navrhovanou změnu čl. 9, která se týká využití zvláštních kategorií osobních údajů při trénování AI. Čl. 88c se zabývá obecnějším případem, a to je využitím právního základu oprávněného zájmu podle čl. 6 odst. 1 písm. f) GDPR pro trénování a provoz modelů a systémů umělé inteligence. Považuji za vhodné poukázal na některé problematické body tohoto návrhu a jeho rizika.

Neoficiální překlad čl. 88c zní:

Článek 88c

Zpracování v souvislosti s vývojem a provozem umělé inteligence

Je-li zpracování osobních údajů nezbytné pro zájmy správce v souvislosti s vývojem a provozem systému umělé inteligence ve smyslu čl. 3 bodu 1 nařízení (EU) 2024/1689 nebo modelu umělé inteligence, lze takové zpracování provádět z oprávněných zájmů ve smyslu čl. 6 odst. 1 písm. f) nařízení (EU) 2016/679, je-li to vhodné, s výjimkou případů, kdy jiné právní předpisy Unie nebo vnitrostátní právní předpisy výslovně vyžadují souhlas, a případů kdy tyto zájmy jsou převáženy zájmy nebo základními právy a svobodami subjektu údajů, které vyžadují ochranu osobních údajů, zejména pokud je subjektem údajů dítě.

Jakékoli takové zpracování podléhá vhodným organizačním a technickým opatřením a zárukám pro práva a svobody subjektu údajů, například s cílem zajistit dodržování zásady minimalizace údajů během fáze výběru zdrojů a trénování a testování systému umělé inteligence nebo modelu umělé inteligence, chránit před neoprávněným zveřejněním zbytkových údajů uchovávaných v systému umělé inteligence nebo modelu umělé inteligence, zajistit zvýšenou transparentnost vůči subjektům údajů a poskytnout subjektům údajů bezpodmínečné právo vznést námitku proti zpracování jejich osobních údajů.

Přibudou do GDPR dodatečné podmínky pro AI?

Pozitivem návrhu je, že Komise navržením tohoto článku uznala, že oprávněný zájem ve smyslu čl. 6 odst. 1 písm. f) GDPR může skutečně být právním základem pro zpracování osobních údajů v rámci vývoje a provozu systémů umělé inteligence. V návaznosti na určité nejasnosti, které ohledně využití takového právního základu a dosahu jeho použití panují1, se jedná o vyjasnění velmi potřebné.

Podmínku uvedenou v prvním pododstavci, tedy že „…kdy tyto zájmy jsou převáženy zájmy nebo základními právy a svobodami subjektu údajů, které vyžadují ochranu osobních údajů,“ lze chápat jako identickou s požadavkem již obsaženým v čl. 6 odst. 1 písm. f) GDPR.

Přesto lze při podrobnější analýze identifikovat v textu návrhu několik rizik a nejasností, které by mohly výrazně zkomplikovat právní podmínky pro vývoj umělé inteligence v rámci EU. Návrh totiž sice připouští užití oprávněného zájmu pro vývoj a provoz systémů umělé inteligence, nicméně oproti požadavkům čl. 6 odst. 1 písm. f) GDPR pro jeho užití stanoví řadu dodatečných podmínek. To na jedné straně může přispět k vyšší ochraně subjektů údajů, na straně druhé však, pokud nebude vhodně vyvážen, může vést k přílišné zátěži na straně poskytovatelů systémů a modelů, kteří tak pro své systémy a jejich vývoj budou volit jiné jurisdikce.

Těmito dodatečnými podmínkami jsou:

  1. Dodatečný požadavek vhodnosti v prvním pododstavci
  2. Možnost členských států či EU stanovit pro některé situace souhlas jako jediný možný právní základ zpracování (opět v prvním pododstavci), což může s ohledem na obvykle celosvětové užití modelů způsobovat praktické problémy
  3. V rámci zpracování mají být přijata zvláštní technická a organizační opatření, což pravděpodobně směřuje k požadavku na přísnější opatření, než jsou předpokládána v čl. 24 GDPR
  4. Požadavek zvýšené transparentnosti (nad rámec zásady transparentnosti podle GDPR), který lze chápat jako samostatný požadavek, byť je formálně spojen s organizačními a technickými opatřeními
  5. Podobně jako de facto samostatný požadavek je možné chápat požadavek na ochranu před neoprávněným zveřejněním zbytkových údajů uchovávaných v systému umělé inteligence nebo modelu umělé inteligence
  6. Zásadním požadavkem je zavedení nepodmíněného práva na námitku.

Zejména podmínky uvedené pod body 3 až 6 mohou podle mého názoru v praxi přinést řadu problémů. GDPR je totiž již samo o sobě konstruováno jako neutrální právní norma zdůrazňující princip opatření založených na riziku. Proto dostačuje již aplikace samotného GDPR, které nabízí nástroje, jak zohlednit případné vyšší (či nižší) riziko konkrétního zpracování pro dotčené subjekty údajů. Kladení dalších dílčích požadavků v rámci jednotlivých sektorů samozřejmě není vyloučeno, ale mělo by být používáno velmi uvážlivě, protože může při špatném nastavení podvázat rozvoj těchto odvětví. To platí tím spíše pro odvětví, které se aktuálně bouřlivě rozvíjejí, jako je právě umělá inteligence.  

Výše uvedené dodatečné podmínky navrhované v čl. 88c proto musí být pečlivě uváženy.

Praktické dopady a rizika návrhu Komise

Požadavek na (zvláštní) vhodná organizační a technická opatření. Ta by měla směřovat například k zajištění dodržování zásady minimalizace údajů během fáze výběru zdrojů, což je velmi obecný požadavek, zejména s ohledem na velmi přísnou judikaturu Soudního dvora EU vyžadující objektivní posouzení nezbytnosti. Zároveň protože požadavek na přijetí organizačních a technických opatření je již obsažen v čl. 24 GDPR, jedná se pravděpodobně o stanovení povinnosti zavést dodatečná přísnější opatření. Rozsah takové (dodatečné) povinnosti ale může být poměrně nejasný, zvláště za situace, kdy je celá regulace (GDPR) vystavěna na přístupu založeném na riziku a kdy vyšší míra rizika již sama o sobě vyžaduje vyšší míru organizačních a technických opatření. Bylo by proto pravděpodobně vhodnější zmínit tyto požadavky pouze v recitálu v kontextu právě přístupu založeném na riziku, než je činit součástí samotného zákonného textu.

Požadavek na vyšší transparentnost vůči subjektům údajů může být v praxi také obtížně naplnitelný, zejména v případě získávání značného množství dat. Opět lze považovat za vhodnější řešení zmínění tohoto požadavku spíše v rámci recitálů (vč. argumentačního propojení tohoto text s požadavky kapitoly IV Aktu o umělé inteligence), kde by bylo také možné lépe rozlišovat mezi subjekty, které se na přípravě AI modelů a systémů podílí (které ne vždy pravidlům AI Act podléhají). Např. subjekty zajišťující trénovací datasety mohou být někdy v lepším postavení, pokud se týká možnosti informovat subjekty údajů než poskytovatelé modelů samotní. Specifická je pak otázka transparentnosti u dat užívaných (získávaných) v rámci Retrieval-Augmented Generation (RAG), která by mohla být také zmíněna v rámci recitálů.

Pokud se pak jedná o požadavek na ochranu před neoprávněným zveřejněním zbytkových údajů uchovávaných v systému umělé inteligence nebo modelu umělé inteligence, zde je text návrhu poměrně nejasný a otevírá řadu otázek. Pokud se na zpracování dat v systémech a modelech LLM díváme z funkčního hlediska, bude v nich takřka vždy docházet ke zpracování osobních údajů (budou např. schopny odpovědět na dotaz na konkrétní osoby, ať již díky vlastnosti samotného modelu, tak díky datům získaným v rámci RAG a to bez ohledu na to, zda model samotný bude v sobě takové údaje uchovávat ve zjistitelné podobě či nikoliv). Z tohoto pohledu není zřejmé, jak je myšlena zmínka o „neoprávněném zveřejnění“ a „zbytkových údajích“. V řadě případů si lze představit zcela oprávněné zveřejňování osobních údajů AI systémem (např. odpověď na dotaz „kdo je aktuálním prezidentem České republiky“) a v řadě případů nelze vycházet z toho, že AI systém bude obsahovat pouze „zbytkové“ osobní údaje, nehledě na to, že díky RAG mohou být odpovědi obohacovány o další údaje. Proto bylo vhodné blíže vyjasnit předmět a dosah této povinnosti a představu unijního normotvůrce o tom, jaký je účel tohoto omezení.

Za nejzásadnější problém návrhu lze ovšem považovat požadavek na nepodmíněné právo na námitku. Opět je nutné upozornit na fungování AI systémů v rámci RAG, kde by bylo toto právo realizovatelné pouze v rámci filtrace výsledků. Také u agentické AI díky řadě datasetů, které mohou být využívány pro její fungování, otevírá takový požadavek řadu nejasností a problémů. Zároveň v řadě případů nebude takové neomezené právo přiměřené. Např. u údajů zveřejněných státními orgány v rámci open data či svobodného přístupu k informacím, údajů zveřejněných dobrovolně subjekty údajů, údajů z obchodních a jiných rejstříků apod. Důsledné uplatnění tohoto práva by znamenalo riziko zásadního omezení kvality výstupů AI systémů při práci s volně legálně dostupnými informacemi, např. při vyhotovování hospodářských analýz apod. Zároveň tento požadavek přináší i další praktické problémy, kdy by kupříkladu v praxi nebylo jednoduché provést filtraci výsledků u osob, jejichž jméno bude totožné s jinými osobami a kdy pouze kontextově bude zřejmé, o jakou konkrétní osobu se jedná.  

Závěr

Návrh nového ustanovení čl. 88c GDPR sice na jedné straně potvrzuje možnost využití oprávněného zájmu v rámci trénování a provozu AI modelů a systémů, na druhé straně svojí snahou stanovit přímo v zákonném textu další ochranná opatření může praktické využití oprávněného zájmu zproblematizovat. Proto by bylo třeba jej podrobit pečlivé revizi. Zdá se ostatně, že Rada EU došla k podobnému závěru, a proto navrhuje toto ustanovení z návrhu Digitálního omnibusu zcela vpustit.  

Stáhnout PDF