Pradžia / Programavimas / Asmens duomenys ir DI

Programavimas

Asmens duomenys ir DI

2026-05-17

Kai algoritmas žino apie tave daugiau nei tavo draugai

Kažkada duomenys buvo tiesiog skaičiai lentelėje. Dabar jie yra kažkas kur kas sudėtingesnio – tai skaitmeninis tavo portretas, kurį dirbtinis intelektas nuolat papildo, tikslina ir interpretuoja. Kiekvieną kartą, kai paieškos sistemoje įvedi klausimą, kai sustoji prie parduotuvės vitrinos su telefonu kišenėje, kai perskaitai žinutę ir neatsakai – visa tai kažkur fiksuojama. O DI sistemas šiuos taškus sujungia į vaizdą, kuris kartais būna tiksliau nei pats save apibūdintum.

Tai nėra paranoja. Tai yra tiesiog dabartinė realybė, kurią verta suprasti, o ne bijoti. Nes supratus, kaip viskas veikia, galima priimti geresnius sprendimus – tiek kaip vartotojui, tiek kaip žmogui, kuris galbūt kuria produktus ar paslaugas, kuriose DI vaidina kokį nors vaidmenį.

Kokie duomenys iš tikrųjų maitina DI sistemas

Čia dažnai kyla nesusipratimų. Žmonės galvoja apie asmens duomenis kaip apie vardą, pavardę, gimimo datą – tokius dalykus, kuriuos užpildai formoje. Bet DI kontekste tai yra tik ledkalnio viršūnė.

Realiai DI sistemas domina elgsenos duomenys – kaip ilgai žiūrėjai į konkretų produktą, kokiu greičiu slinkei per puslapį, ar tavo pelė sustojo ties konkrečia pastraipa. Domina metaduomenys – ne tik ką rašei, bet kada, iš kokio įrenginio, kokiu tinklu. Domina inferenciniai duomenys – tai, ką sistema apie tave apskaičiuoja, net jei tu to tiesiogiai niekada nenurodei. Pavyzdžiui, jei reguliariai perkate vaistus nuo spaudimo, sistema gali daryti išvadas apie tavo sveikatos būklę, nors tu niekada to nedeklaravai.

Štai kodėl BDAR (Bendrasis duomenų apsaugos reglamentas) ir kiti teisės aktai kalba ne tik apie tiesiogiai pateiktus duomenis, bet ir apie vadinamuosius išvestinius bei inferenciniais duomenis. Juridiškai tai vis dar pilka zona daugelyje jurisdikcijų, bet techniškai – tai vieni vertingiausių duomenų, kuriuos DI sistema gali turėti.

Praktinis patarimas čia paprastas: kai naudojiesi kokia nors paslauga ir galvoji „na, aš juk nieko jautraus nenurodžiau” – pagalvok dar kartą. Elgsenos šablonai dažnai atskleidžia daugiau nei tiesioginiai atsakymai į klausimus.

Sutikimas duomenų amžiuje – ar jis apskritai turi prasmę

Sutikimo mygtukas. Tas žalias mygtukas, kurį paspaudžiame neskaičiuodami. Teoriškai jis yra teisinis pagrindas duomenų tvarkymui. Praktiškai – tai dažnai tik formalumas, kurį abi pusės atlieka mechaniškai.

Problema yra struktūrinė. Vidutinis privatumo politikos dokumentas yra maždaug 2500 žodžių ilgio. Jei skaitytum visas privatumo politikas, su kuriomis susiduri per metus, tai užimtų apie 76 darbo dienas. Niekas to nedaro. Ir kompanijos tai žino.

DI kontekste sutikimo problema tampa dar sudėtingesnė dėl kelių priežasčių:

Tikslų neapibrėžtumas: Kai duodi sutikimą, dažnai neaišku, kokiam konkrečiam DI modelio apmokymo tikslui tavo duomenys bus naudojami. „Paslaugų gerinimas” yra tokia plati formuluotė, kad po ja galima paslėpti beveik viską.
Grandininis perdavimas: Kompanija A perduoda duomenis kompanijai B, kuri juos naudoja DI modeliui apmokyti. Tavo sutikimas buvo duotas kompanijai A. Ar jis galioja kompanijai B? Teisiškai – diskutuotina.
Retroaktyvus naudojimas: Duomenys, kuriuos davei prieš 5 metus, gali būti naudojami šiandien apmokyti modelį, kuris tada dar neegzistavo. Ar tavo sutikimas apima ir šį scenarijų?

Europos duomenų apsaugos valdyba (EDPB) bando šiuos klausimus spręsti, bet reguliavimas visada atsilieka nuo technologijų. Tai nėra kritika – tiesiog realybė.

Kaip DI gali diskriminuoti, net nenorėdamas

Vienas iš labiausiai nerimą keliančių asmens duomenų ir DI sankirtos aspektų yra algoritminis šališkumas. Ir čia svarbu suprasti: DI sistema nebūtinai turi „norėti” diskriminuoti, kad tai darytų. Pakanka, kad mokymo duomenys atspindėtų istorines neteisybes.

Klasikinis pavyzdys – kreditų vertinimo sistemos. Jei istoriškai tam tikrų rajonų gyventojai gaudavo mažiau paskolų (dėl diskriminacinės bankų praktikos), o DI modelis mokomas ant šių istorinių duomenų, jis „išmoks”, kad šių rajonų gyventojai yra prastesni kredito gavėjai. Ir tai darys net be jokio rasinio ar tautinio identifikatoriaus duomenyse – pakanka pašto kodo.

Tai vadinama proxy diskriminacija. Ir ji yra ypač klastinga, nes:

Ji sunkiai pastebima iš išorės
Ją sunku įrodyti teisiškai
Pati sistema negali paaiškinti, kodėl priėmė tokį sprendimą (ypač giluminio mokymosi atveju)

Asmens duomenų apsaugos požiūriu tai kelia rimtų klausimų. BDAR 22 straipsnis suteikia teisę į žmogišką sprendimų peržiūrą, kai sprendimas priimamas automatizuotai ir turi reikšmingą poveikį asmeniui. Bet praktiškai šia teise naudojamasi retai – dažnai tiesiog todėl, kad žmonės nežino, kad ją turi.

Rekomendacija: Jei esi atsisakytas paskolos, draudimo ar darbo, ir įtari, kad sprendimą priėmė algoritmas – turi teisę paprašyti paaiškinimo ir žmogaus peržiūros. Naudokis šia teise. Kompanijos privalo į tai reaguoti.

Duomenų minimizavimas – principas, kurio dažnai nepaisoma

BDAR įtvirtina duomenų minimizavimo principą: rinkti tik tiek duomenų, kiek būtina konkrečiam tikslui pasiekti. Skamba paprastai. Praktikoje – tai vienas labiausiai pažeidžiamų principų DI eroje.

Kodėl? Nes DI sistemos iš principo mėgsta daugiau duomenų. Daugiau duomenų – geresnė tikslumas, geresni modeliai, geresni produktai. Tai sukuria struktūrinę paskirtą rinkti kuo daugiau, o ne kuo mažiau. Ir čia verslo logika tiesiogiai konfliktuoja su privatumo principu.

Tačiau yra ir priešingų tendencijų. Federatyvinis mokymasis (federated learning) yra vienas iš technologinių atsakymų į šią problemą. Idėja paprasta: vietoj to, kad visi duomenys būtų centralizuoti serveryje, modelis mokomas tiesiogiai ant įrenginio, o į serverį siunčiami tik modelio atnaujinimai, ne patys duomenys. Google naudoja šį metodą, pavyzdžiui, klaviatūros pasiūlymams Android įrenginiuose.

Diferencialioji privatumo apsauga (differential privacy) yra kitas įrankis – į duomenis pridedamas matematiškai kontroliuojamas „triukšmas”, kuris leidžia išsaugoti statistines savybes, bet apsunkina individualių asmenų identifikavimą. Apple aktyviai naudoja šį metodą.

Tai nereiškia, kad šios technologijos išsprendžia visas problemas. Jos turi savo kompromisus – dažnai tikslumas sumažėja. Bet jos parodo, kad privatumas ir naudingumas nėra visada priešingybės.

Generatyvinis DI ir nauja duomenų problema

ChatGPT, Claude, Gemini ir kiti generatyviniai modeliai atnešė visiškai naują duomenų privatumo dimensiją, apie kurią dar prieš kelerius metus mažai kas galvojo.

Pirma problema – mokymo duomenys. Dideli kalbos modeliai buvo apmokyti ant milžiniško interneto turinio kiekio. Tame turinyje yra ir asmens duomenų – žmonių komentarai, laiškai, kurie pateko į viešą erdvę, asmeninė informacija iš įvairių šaltinių. Ar šie žmonės davė sutikimą? Dažniausiai – ne. Ar jie žino, kad jų tekstai yra kažkokio modelio dalis? Beveik tikrai – ne.

Italija 2023 metais laikinai užblokavo ChatGPT kaip tik dėl šių klausimų. Vėliau apribojimas buvo panaikintas, bet precedentas buvo sukurtas – reguliatoriai gali ir veikia.

Antra problema – tai, ką tu įvedi į generatyvinį DI. Žmonės kasdien įkelia į šiuos modelius jautriausią informaciją: medicininius klausimus, teisinius scenarijus, finansines situacijas, asmeninius konfliktus. Ir dažnai nesupranta, kad ši informacija gali būti naudojama modelio tobulinimui.

Praktiniai patarimai darbui su generatyviniu DI:

Niekada neįkelk realių asmens duomenų – vardų, adresų, identifikavimo numerių. Jei reikia pateikti pavyzdį, naudok fiktyvius duomenis.
Patikrink, ar paslauga turi galimybę išjungti duomenų naudojimą mokymo tikslais. ChatGPT tai leidžia nustatymuose.
Korporatyviniame kontekste – visada tikrink, ar naudojama versija turi duomenų tvarkymo sutartį (DPA), kuri atitinka jūsų organizacijos reikalavimus.
Jautriems projektams naudok lokalinius modelius (pvz., Ollama su atitinkamu modeliu), kurie veikia tavo infrastruktūroje.

Teisinis kraštovaizdis – kas keičiasi ir ką reikia žinoti

Reguliavimas šioje srityje juda greičiau nei bet kada anksčiau, nors vis tiek atsilieka nuo technologijų. Keletas svarbių dalykų, kuriuos verta žinoti:

ES Dirbtinio intelekto aktas (AI Act) – jau priimtas ir laipsniškai įsigalioja. Jis nustato rizikos kategorijas DI sistemoms. Didelės rizikos sistemos (pvz., naudojamos kredito vertinimui, darbo atrankai, teisingumo sistemoje) turės atitikti griežtus skaidrumo ir duomenų kokybės reikalavimus. Draudžiamos sistemos apima socialinį kreditavimą ir realaus laiko biometrinę stebėseną viešose erdvėse (su išimtimis).

BDAR ir DI sankirta – čia vis dar daug neaiškumų. Europos duomenų apsaugos institucijos skirtingose šalyse kartais skirtingai interpretuoja tas pačias normas. Airija, kur registruotos daugelis technologijų kompanijų, yra ypač svarbi jurisdikcija, bet jos reguliatorius (DPC) sulaukia kritikos dėl lėto veikimo.

Teisė į paaiškinimą – BDAR 22 straipsnis ir AI akto nuostatos kartu kuria pagrindą reikalauti, kad automatizuoti sprendimai būtų paaiškinami. Bet „paaiškinamumo” standartai vis dar formuojasi. Kiek detalus turi būti paaiškinimas? Ar pakanka „modelis nusprendė, kad jūs neatitinkate kriterijų”? Greičiausiai – ne, bet teismų praktika dar tik formuojasi.

Organizacijoms, kurios kuria ar naudoja DI sistemas, praktinė rekomendacija yra aiški: dokumentuokite viską. Duomenų šaltinius, mokymo procesą, modelio vertinimus, sprendimų logiką. Tai ne tik teisinis reikalavimas – tai ir gera inžinerinė praktika, kuri padeda, kai kažkas eina ne taip.

Kai privatumas tampa konkurenciniu pranašumu

Baigiant šią temą, verta paminėti tendenciją, kuri pastaraisiais metais tampa vis labiau pastebima: privatumas kaip produkto savybė, o ne kaip reguliavimo našta.

Apple savo „Privacy as a feature” pozicionavimą pavertė marketingo strategija – ir tai veikia. Žmonės vis labiau vertina paslaugas, kurios aiškiai komunikuoja, ką daro su duomenimis. DuckDuckGo, ProtonMail, Signal – tai ne tik nišiniai produktai paranojikams. Jie auga, nes yra augantis segmentas vartotojų, kurie sąmoningai renkasi privatumą.

DI kontekste tai reiškia, kad kompanijos, kurios investuoja į privatumo užtikrinančias technologijas (federated learning, differential privacy, lokalinis duomenų tvarkymas), gali turėti ilgalaikį pranašumą – tiek reguliavimo, tiek vartotojų pasitikėjimo prasme.

Ir čia yra esminis dalykas, kurį norisi pabrėžti: asmens duomenų apsauga DI eroje nėra tik teisinis klausimas. Tai yra inžinerinis, etinis ir verslo klausimas vienu metu. Geriausios sistemos bus tos, kurios šiuos tris aspektus traktuoja ne kaip atskiras problemas, o kaip vieną integruotą iššūkį. Tai reiškia, kad privatumo inžinieriai turi sėdėti prie to paties stalo su duomenų mokslininkais nuo pat projekto pradžios – ne tada, kai produktas jau sukurtas ir reikia „pridėti privatumą”. Nes privatumą prie gatavo produkto pridėti yra taip pat sunku, kaip prie jau pastatyto namo pridėti pamatus.

7g.lt

Asmens duomenys ir DI

Kai algoritmas žino apie tave daugiau nei tavo draugai

Kokie duomenys iš tikrųjų maitina DI sistemas

Sutikimas duomenų amžiuje – ar jis apskritai turi prasmę

Kaip DI gali diskriminuoti, net nenorėdamas

Duomenų minimizavimas – principas, kurio dažnai nepaisoma

Generatyvinis DI ir nauja duomenų problema

Teisinis kraštovaizdis – kas keičiasi ir ką reikia žinoti

Kai privatumas tampa konkurenciniu pranašumu

Promptų rašymas (kaip rašyti efektyvius)

Seo ar Google Ads – kas geriau

Asmens duomenys ir DI

Kai algoritmas žino apie tave daugiau nei tavo draugai

Kokie duomenys iš tikrųjų maitina DI sistemas

Sutikimas duomenų amžiuje – ar jis apskritai turi prasmę

Kaip DI gali diskriminuoti, net nenorėdamas

Duomenų minimizavimas – principas, kurio dažnai nepaisoma

Generatyvinis DI ir nauja duomenų problema

Teisinis kraštovaizdis – kas keičiasi ir ką reikia žinoti

Kai privatumas tampa konkurenciniu pranašumu

Promptų rašymas (kaip rašyti efektyvius)

Seo ar Google Ads – kas geriau

Susiję

DI rašant baigiamąjį darbą

DI asistentai programuotojams (Copilot, Cursor, Cody)

DI etika ir rizikos