{"id":302729,"date":"2025-02-18T23:04:22","date_gmt":"2025-02-18T22:04:22","guid":{"rendered":"https:\/\/sherpas.com\/blog\/?p=302729"},"modified":"2025-04-29T09:54:06","modified_gmt":"2025-04-29T07:54:06","slug":"ia-vol-donnees","status":"publish","type":"post","link":"https:\/\/sherpas.com\/blog\/ia-vol-donnees\/","title":{"rendered":"L\u2019IA et le vol de donn\u00e9es : comment \u00e7a fonctionne vraiment ? \ud83e\udd14"},"content":{"rendered":"\n
As-tu d\u00e9j\u00e0 r\u00e9fl\u00e9chi \u00e0 la mani\u00e8re dont les IA comme ChatGPT apprennent \u00e0 te r\u00e9pondre ?<\/strong> Ces mod\u00e8les puisent dans d\u2019\u00e9normes quantit\u00e9s de donn\u00e9es\u2026 sans toujours demander la permission. Que ce soit des textes d\u2019articles, des \u0153uvres d\u2019art, des informations personnelles<\/strong>, tout y passe ! <\/p>\n\n\n\n Dans cet article, on va voir comment les IA exploitent nos donn\u00e9es, parfois sans qu\u2019on le sache,<\/strong> \u00e0 travers quelques affaires r\u00e9centes<\/strong> comme OpenAI<\/strong> et DeepSeek<\/strong>. On parlera aussi des r\u00e9glementations gouvernementales en cours<\/strong> pour encadrer ces pratiques et de ce que tu peux faire<\/strong> pour <\/strong>prot\u00e9ger tes informations.<\/p>\n\n\n\n C\u2019est parti ! \ud83d\ude80<\/p>\n\n\n\n Pour fonctionner, un mod\u00e8le d\u2019IA a besoin de millions, voire milliards<\/strong> de documents, d\u2019images, de textes, etc. Avant m\u00eame d\u2019\u00eatre utilisable par le public, il doit passer par une phase cruciale : l\u2019entra\u00eenement<\/strong>.<\/p>\n\n\n Qu\u2019est-ce que \u00e7a veut dire, entra\u00eener une IA ?\u00a0<\/b> \u00a0C\u2019est un processus o\u00f9 l\u2019algorithme <\/span>analyse d\u2019\u00e9normes quantit\u00e9s de donn\u00e9es<\/b> pour apprendre <\/span>\u00e0 reconna\u00eetre des sch\u00e9mas, r\u00e9diger des textes<\/a>, g\u00e9n\u00e9rer des images<\/a> ou r\u00e9pondre aux questions<\/b>. Plus une IA a de donn\u00e9es, plus elle devient performante.<\/span><\/p>\n\n <\/div>\n <\/section>\n\n\n\n Contrairement \u00e0 ce qu\u2019on pourrait penser, les entreprises d\u2019IA ne demandent pas directement aux cr\u00e9ateurs de contenus l\u2019autorisation d\u2019utiliser leurs \u0153uvres. \u00c0 la place, elles utilisent une technique appel\u00e9e<\/strong> scraping<\/strong>.<\/p>\n\n\n\n \ud83d\udc49 Le scraping<\/strong>, c\u2019est quand un programme va automatiquement r\u00e9cup\u00e9rer<\/strong> des donn\u00e9es sur des sites web publics. Il peut aspirer des :<\/p>\n\n\n\n \ud83d\udca1 Le probl\u00e8me<\/strong>, c\u2019est que ces contenus sont souvent<\/strong> prot\u00e9g\u00e9s par des droits d\u2019auteur <\/strong>que les IA ne respectent pas avec leur scraping. Ils ne font pas la distinction entre donn\u00e9es publiques et donn\u00e9es prot\u00e9g\u00e9es<\/strong>, ce qui soul\u00e8ve de graves questions \u00e9thiques et l\u00e9gales<\/strong>. <\/p>\n\n\n \u00c0 lire aussi<\/p>\n Tout comprendre sur le Deep Learning : le moteur de l’IA<\/strong><\/a><\/p>\n\n <\/div>\n <\/section>\n\n\n\n Le scraping massif par les IA<\/strong> soul\u00e8ve des graves risques<\/strong> :<\/p>\n\n\n\n Ce n\u2019est donc pas juste une question de “le vol, c\u2019est mal”<\/strong>, mais un probl\u00e8me bien plus large qui touche les droits des cr\u00e9ateurs, la protection des donn\u00e9es et la transparence des IA<\/strong>.<\/p>\n\n\n \u00c0 lire aussi<\/p>\n Tout comprendre sur les limites actuelles de l’IA<\/strong><\/a><\/p>\n\n <\/div>\n <\/section>\n\n\n On en voit d\u00e9j\u00e0 les effets<\/b> : des IA comme <\/span>MidJourney<\/b> et <\/span>Stable Diffusion<\/b> ont \u00e9t\u00e9 accus\u00e9es en 2023 d\u2019avoir <\/span>utilis\u00e9<\/b> des millions d\u2019\u0153uvres prot\u00e9g\u00e9es sans autorisation<\/b><\/a>, poussant de nombreux artistes \u00e0 r\u00e9clamer justice pour faire respecter leurs droits face \u00e0 ces mod\u00e8les surpuissants. \ud83d\ude21<\/span><\/p>\n\n <\/div>\n <\/section>\n\n\nQuand l\u2019IA s\u2019entra\u00eene avec tes donn\u00e9es \ud83d\ude31<\/strong><\/h2>\n\n\n\n
\n<\/b><\/p>\n<\/div>\n \ud83d\udce5 Comment une IA collecte des donn\u00e9es en ligne ?<\/strong><\/h3>\n\n\n\n
\n
<\/figure><\/div>\n\n\n
\u2696\ufe0f Pourquoi le scraping pose un probl\u00e8me juridique et \u00e9thique ?<\/strong><\/h3>\n\n\n\n
\n
\n <\/div>\n