Velike kompanije su, prema navodima, bez dozvole koristile YouTube transkripte za treniranje AI modela.
Neke od najvećih svetskih kompanija su svoje AI modele obučavale na podacima koji uključuju transkripte više od 173.000 YouTube videa – i to bez dozvole.
Ovo je otkrila nova istraga, koju je obavio Proof News. Skup podataka, koji je kreirala neprofitna kompanija pod nazivom EleutherAI, sadrži transkripte video snimaka sa više od 48.000 YouTube kanala i koristili su ih Apple, Nvidia i Anthropic, između ostalih kompanija.
Apple has sourced data for their AI from several companies
One of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids "fault" here because they're not the ones scraping
But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) July 16, 2024
“Apple je prikupio podatke za svoju veštačku inteligenciju od nekoliko kompanija. Jedna od njih je sakupila tone podataka/transkripata sa YouTube video zapisa, uključujući i moj. Ovo će dugo vremena biti problem koji ne prestaje”, objavio je Braunli na platformi X.
Za sada, AI kompanije nisu bile transparentne o tome koje podatke koriste za treniranje svojih AI modela. Ranije ovog meseca, umetnici i fotografi kritikovali su Apple zbog toga što nije objavio izvore korišćene za obučavanje Apple Intelligence sistema.
YouTube poredstavlja najveće svetsko skladište video sadržaja i pravi je zlatni rudnik ne amo za transkripte, već i za audio, video, slike, što platformu čini savršenim izvorom za obučavanje AI modela.