top of page

Yapay Zeka Model Eğitimi İçin Kullanılan Verilerde “Hukuka Uygunluk Zinciri”

  • Paksoy
  • 24 Kas
  • 4 dakikada okunur

Yapay Zeka Model Eğitiminde Hukuka Uygunluk Zinciri

Yapay zekâ modellerinin performansı, büyük ölçüde eğitim verilerinin niteliğine bağlıdır. Bu da eğitimde kullanılan verilerin hukuka uygunluğuna ilişkin soruları beraberinde getirmektedir. Özellikle yüksek riskli sistemler bakımından, bir modelin nasıl eğitildiği ve kullanılan veri setlerinin hangi hukuki temele dayandığı düzenleyici otoriteler tarafından denetlenmektedir. Bu nedenle yapay zeka modellerinin eğitiminde, “hukuka uygunluk zinciri” (lawful data provenance chain) kavramı, YZ uyum süreçlerinin merkezindeki konulardan biri olarak kabul edilmelidir.


Hem AB Yapay Zekâ Tüzüğü hem de kişisel verilerin korunmasına ilişkin düzenlemeler, veri setinin kaynağından işlenmesine, saklanmasından yeniden kullanımına kadar bütün aşamalarının denetlenmesini zorunlu kılmaktadır.


Veri Kaynağında Şeffaflık Gerekliliği

Veri seti oluşturulurken kullanılan tüm kaynaklar belgelendirilmiş olmalıdır. Denetim sırasında, verilerin:

  • Kamuya açık bir kaynaktan mı alınmış olduğu

  • Bir sözleşme kapsamında mı elde edildiği

  • Açık rıza veya başka bir hukuki işleme şartına dayanıp dayanmadığı

  • Ticari bir veri sağlayıcıdan satın alınmışsa lisans koşullarının karşılanıp karşılanmadığı incelenmektedir.


Bu aşamada eksik veya belirsiz kaynak gösterimi, veri setinin tamamının hukuka aykırı kabul edilmesine yol açabilecektir. Örneğin Clearview AI şikayetinde veri setindeki bileşenlerin hukuki statüsünün ayırt edilmesi mümkün olmadığından veri setinin tamamı “kirlenmiş” kabul edilmiştir (contamination theory veya tainting effect). Buna ek olarak özellikle telif hakkı ile korunan içeriklerin toplu olarak kullanıldığı modeller bakımından kaynak şeffaflığının sağlanamadığı hâllerde ciddi yaptırımlar uygulanabilmektedir.


Kişisel Veri İçeren Veri Setlerinde Denetim

Kişisel veri içeren veri setleri için hukuki değerlendirme çok daha sıkı yapılmaktadır. Denetimde şu unsurlar incelenmektedir:

  • İşleme şartının hangi maddeye dayandığı

  • Aydınlatma yükümlülüğünün yerine getirilip getirilmediği

  • Veri minimizasyonu ilkesine uyulup uyulmadığı

  • Veri setine gereksiz, aşırı veya hassas nitelikli verilerin dahil edilip edilmediği

  • Veri sahiplerinin haklarının teknik olarak uygulanabilir kılınıp kılınmadığı.


Örneğin yine Clearview AI şikayetinde, yüz tanıma modeli için kullanılan görüntülerin, kişilerin rızası olmadan sosyal medyadan toplanmış, bunun sonucunda veri seti hukuka aykırı kabul edilmiş ve modelin kullanımı yasaklanmıştır.


Temsiliyet ve Önyargı (Bias) Taraması

Önyargı denetimi, bir veri setinin “hukuka uygunluk zinciri” içinde yer alan en kritik duraklardan biridir. Çünkü bir modelin nasıl davrandığı, eğitildiği verilerin yapısal kusurlarının bir yansımasıdır. Burada “bias taraması” dediğimiz süreç, veri setinin farklı grupları nasıl temsil ettiğini inceleyen sistematik bir denetimdir.


Örneğin bir yüz tanıma veri setinin belirli etnik grupları çok daha düşük biçimde temsil etmesi, modelin bu gruplarda çok daha yüksek hata oranıyla çalışmasına yol açabilmiştir. Bu durum ABD’de ACLU v. Amazon Rekognition tartışmalarında görülmüş, algoritma siyahi kongre üyelerini hatalı biçimde “suçlu” olarak etiketlemiştir. Öte yandan işe alım gibi ayrımcılık yasağının özellikle hassas olduğu alanlarda, veri setinde kadınların tarihsel olarak aşağı pozisyonlarda yer alması veya belirli yaş gruplarının daha az temsil edilmesi, modelin çıktılarında sistematik dezavantajlar yaratmaktadır. Veri setleri, toplumdaki temsil dengesizliklerini doğrudan modele taşımaktadır. Bu da modelin, bu kusuru çarpan etkisiyle büyütmesi sonucunu doğurmaktadır. Bu nedenle bias taraması, yalnızca teknik bir iyileştirme değil, doğrudan hukuki bir gerekliliktir.


AB Yapay Zekâ Tüzüğü'nün yüksek riskli sistemlerde zorunlu tuttuğu “data governance” yükümlülükleri veri setinde temsiliyet ve bias analizini şart koşmaktadır. Yasa, uyum denetiminde geliştiricinin veri setinde hangi taramaları yaptığını, hangi önleyici adımları aldığını ve neden güvenilir kabul edildiğini belgelendirmesini istemektedir.


Bu aşamada denetleyiciler, veri setinin:

  • Demografik olarak dengesiz olup olmadığını

  • Tarihsel önyargılar içerip içermediğini

  • Belirli grupları dışlayıp dışlamadığını

  • Sistem çıktılarında sistematik biçimde hataya yol açıp açmadığını incelemektedir.


“Model Card” ve “Data Sheet” Yükümlülüğü

Bir veri setinin denetlenebilmesi, ayrıntılı şekilde belgelenmiş olmasına bağlıdır. Bu bağlamda karşılaşılan iki kavram "Model Card" ve "Data Sheet" kavramlarıdır.


Model Card, bir yapay zekâ modelinin amacı, kapsamı, sınırları, performansı ve riskleri hakkında şeffaf bilgi sağlayan resmi dokümandır.


Data Sheet ise, modelin eğitildiği veri setlerinin kaynağı, türü, etik ve hukuki izinleri açısından şeffaf şekilde açıklanmasını sağlar.


Bu kapsamda geliştiriciler:

  • Veri setinin içeriğini

  • Hangi amaçla toplandığını

  • Hangi temizlik ve etiketleme işlemlerinden geçtiğini

  • Hangi sınırlamalara sahip olduğunu belgelemelidir.


AB düzenlemeleri, bu belgelerin modelin kullanım kılavuzuyla birlikte kamuya açık şekilde yayımlanmasını istemektedir. Denetim sırasında eksik dokümantasyon, modelin şeffaflık yükümlülüklerini ihlal etmiş sayılmasına yol açmaktadır.


Üçüncü Taraf Veri Sağlayıcılarının Denetimi

Yapay zekâ modellerinin eğitiminin sıklıkla üçüncü taraf veri sağlayıcıları aracılığıyla sağlanan veri setlerine dayandığı görülmektedir. Bu durumda, model geliştiricisinin sorumluluğu sadece kendi veri toplama süreçleriyle sınırlı kalmamaktadır. Üçüncü taraf kaynakların hukuka uygunluğu da kritik öneme sahiptir. Dolayısıyla veri seti dışarıdan temin edilmişse, sağlayıcıların da hukuki yükümlülükleri denetlenmelidir:

  • Verinin hukuka uygun yollarla elde edildiğinin ispatlanması

  • Veri alt lisanslamasına izin veren bir hakkının bulunduğunun belgelenmesi

  • Veri seti üzerinde iddia edilen sahiplik veya fikri hakların geçerli olduğunu gösteren bir beyan alınması.


Bu süreçte gerçeğe aykırı beyan veren veri sağlayıcıları, hem sözleşmesel bazda hem de haksız fiil sorumluluğu bakımından sorumlu tutulabilmektedir.


“Data Lineage” ve Geri İzlenebilirlik

Data lineage (veri kökeni takibi), bir veri biriminin kökeninden başlayarak işlenme ve modelleme sürecine kadar geçen adımların belgelenmesidir. Geri İzlenebilirlik ise her bir veri biriminin, orijinal kaynağına ve işlenme sürecine kadar geriye dönük olarak takip edilebilmesidir. Örneğin, üretken yapay zekâ modellerinde telif hakkı ihlali şüphesi oluştuğunda, “data lineage” kayıtları yardımıyla modelin ilgili örnekle eğitim görüp görmediği tespit edilmiştir.


Bu nedenle geliştiriciler:

  • Hangi veri alt kümesinin hangi model katmanına etki ettiğini

  • Hatalı çıktının hangi kaynaktan gelen veriye dayandığını

  • Model güncellemeleriyle birlikte veri setinin nasıl değiştiğini gösteren kayıtlar tutmalıdır.


Sonuç

Veri setinin hukuka uygunluğu, yalnızca teknik bir kalite meselesi değildir. AB Yapay Zekâ Tüzüğü uyarınca büyük bir hukuki gerekliliktir. Tüzük, GDPR ve ülkelerin iç hukuklarındaki veri koruma düzenlemeleri gereğince, geliştiricilerin her veri seti için “hukuka uygunluk zinciri” oluşturması zorunludur. Bu bağlamda, veri setini denetlemeyen veya eksik denetleyen şirketler hem idari yaptırımlara hem de tazminat sorumluluğuna maruz kalabilmektedir.



temsili dataset

bottom of page