L’IA et le vol de données : comment ça fonctionne vraiment ? 🤔

Emilie S. - Mis à jour le 18/02/2025
chatGPT sur portable

As-tu déjà réfléchi à la manière dont les IA comme ChatGPT apprennent à te répondre ? Ces modèles puisent dans d’énormes quantités de données… sans toujours demander la permission. Que ce soit des textes d’articles, des œuvres d’art, des informations personnelles, tout y passe ! 

Dans cet article, on va voir comment les IA exploitent nos données, parfois sans qu’on le sache, à travers quelques affaires récentes comme OpenAI et DeepSeek. On parlera aussi des réglementations gouvernementales en cours pour encadrer ces pratiques et de ce que tu peux faire pour protéger tes informations.

C’est parti ! 🚀

Quand l’IA s’entraîne avec tes données 😱

Pour fonctionner, un modèle d’IA a besoin de millions, voire milliards de documents, d’images, de textes, etc.  Avant même d’être utilisable par le public, il doit passer par une phase cruciale : l’entraînement.

Qu’est-ce que ça veut dire, entraîner une IA ? 

 C’est un processus où l’algorithme analyse d’énormes quantités de données pour apprendre à reconnaître des schémas, rédiger des textes, générer des images ou répondre aux questions. Plus une IA a de données, plus elle devient performante.

📥 Comment une IA collecte des données en ligne ?

Contrairement à ce qu’on pourrait penser, les entreprises d’IA ne demandent pas directement aux créateurs de contenus l’autorisation d’utiliser leurs œuvres. À la place, elles utilisent une technique appelée scraping.

👉 Le scraping, c’est quand un programme va automatiquement récupérer des données sur des sites web publics. Il peut aspirer des :

  • Articles de blogs, journaux, forums.
  • Publications sur les réseaux sociaux.
  • Illustrations, photos, vidéos.
  • Codes sources de développeurs.
Un dessin disant "I eat data for breakfast"

💡 Le problème, c’est que ces contenus sont souvent protégés par des droits d’auteur que les IA ne respectent pas avec leur scraping. Ils ne font pas la distinction entre données publiques et données protégées, ce qui soulève de graves questions éthiques et légales

À lire aussi

⚖️ Pourquoi le scraping pose un problème juridique et éthique ?

Le scraping massif par les IA soulève des graves risques :

  • Atteinte aux droits des créateurs : écrivains, journalistes et artistes voient leurs œuvres exploitées sans autorisation ni rémunération.
  • Violation du droit d’auteur : des contenus protégés sont utilisés comme s’ils étaient libres de droit.
  • Risque d’exposition de données sensibles : forums, réseaux sociaux et documents en ligne contiennent parfois des infos personnelles, aspirées sans contrôle.
  • Problèmes de confidentialité : certaines IA ingèrent des contenus non destinés à être publics, posant des risques de fuite ou d’utilisation abusive.

Ce n’est donc pas juste une question de “le vol, c’est mal”, mais un problème bien plus large qui touche les droits des créateurs, la protection des données et la transparence des IA.

À lire aussi

On en voit déjà les effets : des IA comme MidJourney et Stable Diffusion ont été accusées en 2023 d’avoir utilisé des millions d’œuvres protégées sans autorisation, poussant de nombreux artistes à réclamer justice pour faire respecter leurs droits face à ces modèles surpuissants. 😡

Emilie

Sciences Po Lyon

19€/h

Thibault

ENS Paris Ulm

20€/h

Alma

ENS Paris-Saclay

24€/h

Olivier

La Sorbonne

13€/h

Martin

HEC Paris

23€/h

David

EDHEC

25€/h

Simon

4e année de médecine

26€/h

Bastien

Polytechnique

26€/h

Ton premier cours particulier est offert ! 🎁

Nos profs sont passés par les meilleures écoles et universités.

 

J’EN PROFITE MAINTENANT !

OpenAI et DeepSeek : des modèles en pleine controverse 🚨

Si l’usage des données par l’IA est un sujet brûlant, deux entreprises sont particulièrement d’actualité : OpenAI, créateur américain de ChatGPT, et DeepSeek, un nouveau modèle chinosis. Les deux modèles ont été accusés de siphonner des contenus sans permission.

📢 OpenAI et les accusations de vol de données

L’entreprise américaine, qui a lancé ChatGPT en novembre 2022, a déjà été pointée du doigt à plusieurs reprises pour des pratiques jugées abusives. Plusieurs groupes de presse et maisons d’édition ont attaqué OpenAI en justice, dénonçant l’utilisation de leurs contenus sans autorisation

Parmi les accusateurs :

  • Le New York Times a déposé plainte en 2023 après avoir découvert que ChatGPT pouvait réciter des passages entiers de ses articles, preuve qu’il avait absorbé ces contenus lors de son entraînement. 
  • Des auteurs de renom (comme George R.R. Martin, l’auteur de Game of Thrones) ont porté plainte contre OpenAI en 2023, affirmant que leurs livres avaient été utilisés sans leur consentement et sans compensation.

Certains recours juridiques contre OpenAI ont déjà entraîné des sanctions. Par exemple, le régulateur italien de la protection des données l’a condamné à une amende de 15 millions d’euros pour traitement illégal de données personnelles dans ChatGPT.

🗣️ L’argument d’OpenAI

Selon l’entreprise, les modèles ne stockent pas réellement les textes, mais apprennent à en extraire des structures et des concepts. Pourtant, des tests ont montré que ChatGPT pouvait restituer mot pour mot des passages entiers d’articles, comme ceux du New York Times. On parle donc de plagiat

🔍 DeepSeek : un modèle encore mystérieux 

Le nouveau modèle du chatbot DeepSeek a été lancé en janvier 2025, avec des ambitions clairement affichées : concurrencer les IA américaines, notamment en étant plus rentable. Mais ce qui interpelle, c’est sa manière d’obtenir des données.

👀 Un entraînement basé sur des données… volées ?

Le modèle repose sur une gigantesque base de connaissances, mais personne ne sait exactement où il puise ses informations. Plusieurs experts estiment que :

  • Il aurait été entraîné avec du contenu protégé par le droit d’auteur.
  • Il pourrait inclure des données sensibles extraites de forums ou sites sans consentement.

Il se servirait dans des publications scientifiques et brevets sans respecter les licences associées.

Homme qui dit "I'll figure it out though..."
Le public qui regarde l’IA de plus près

🚩 Le problème 

DeepSeek pourrait aller bien au-delà du vol de données pour entraîner ses modèles. Il aurait la capacité de suivre une large gamme de données utilisateur, y compris les comportements en ligne, les informations sur les appareils et même les frappes au clavier. Certains analystes y voient un risque géopolitique majeur, la Chine pouvant exploiter ces technologies sans aucune transparence.

L’ironie, c’est qu’OpenAI, elle-même accusée de vol de données, a dénoncé DeepSeek pour avoir utilisé ses propres modèles sans autorisation

⚖️ Les inquiétudes autour de DeepSeek

Les experts en cybersécurité postent plusieurs questions importantes :

  • Où partent les données ? Impossible de savoir si DeepSeek stocke des informations confidentielles.
  • Qui contrôle l’usage ? Il n’existe aucun cadre juridique international clair pour empêcher des dérives.
  • Peut-on interdire un modèle d’IA sur un territoire ? La Corée du Sud l’a déjà fait en février 2025. 

👉 DeepSeek pourrait bien devenir l’un des cas les plus complexes en matière de régulation IA.

À lire aussi

OpenAI et Deepseek ne sont pas les seules IA accusées de vol de données : Meta, Google et bien d’autres font face à des poursuites. Une grande partie des modèles d’IA ont suscité des plaintes pour utilisation abusive d’informations protégées.

Martin

HEC Paris

23€/h

Jade

Sciences Po Paris

21€/h

Bastien

Polytechnique

26€/h

Emilie

Sciences Po Lyon

19€/h

Hugo

Insa Lyon

16€/h

Alma

ENS Paris-Saclay

24€/h

David

EDHEC

25€/h

Jeanne

Aix-Marseille Université

17€/h

Besoin de cours particuliers ?

4 points de plus sur ta moyenne avec nos profs Sherpas ! 📈

 

JE PRENDS UN COURS GRATUIT !

📜 L’AI Act : une loi pour encadrer les dérives de l’IA

Adopté par l’Union européenne en 2024, l’AI Act vise à réguler l’utilisation et l’entraînement des modèles d’IA en fonction de leur niveau de risque. Parmi ses principales mesures :

  • Transparence obligatoire : les entreprises devront déclarer les sources de données utilisées pour entraîner leurs modèles.
  • Consentement des créateurs : les contenus protégés par le droit d’auteur ne pourront plus être utilisés sans accord explicite.
  • Droit de recours pour les citoyens : si une IA collecte ou utilise des données personnelles sans autorisation, des actions en justice seront possibles.

👉 L’objectif ? Empêcher les entreprises d’IA de s’entraîner dans l’ombre en volant des contenus sans permission.

Drapeau de l'UE avec des dossiers plutôt que des étoiles

L’impact environnemental de l’IA

Est-ce que tu savais que l’IA a une haute empreinte carbone ? L’AI Act inclut aussi la question de la protection de l’environnement.

🔍 Ce que ça change pour OpenAI et DeepSeek

Avec ces nouvelles règles, les géants de l’IA vont devoir modifier en profondeur leur façon de fonctionner.

Jusqu’ici, OpenAI n’a jamais révélé précisément sur quelles données ChatGPT avait été entraîné. 

  • L’entreprise devra publier un rapport détaillé sur les sources utilisées pour entraîner ses modèles.
  • Elle risque des sanctions si elle continue d’ingérer des contenus protégés sans accord.

Pour ce qui est de DeepSeek, développé en Chine, échappe directement à l’AI Act. Mais l’Europe peut limiter son accès :

  • Si DeepSeek ne respecte pas les règles de transparence, son utilisation pourrait être interdite en Europe.
  • Des restrictions similaires à celles imposées à TikTok pourraient être mises en place.

👉 L’objectif : ne pas laisser des IA non conformes exploiter les données des citoyens européens.

⚖️ Est-ce vraiment un tournant pour la protection des données ?

Les points positifs :

  • Première loi mondiale imposant des obligations claires aux IA.
  • Permet aux citoyens de reprendre le contrôle sur leurs données.
  • Force les entreprises d’IA à être plus transparentes.

Les limites :

  • Difficile d’appliquer la loi aux modèles développés en dehors de l’UE, y compris aux États-Unis, où la régulation reste plus souple.
  • Les IA open-source (dont le code est librement accessible) pourraient contourner ces règles.
  • Les sanctions ne sont pas encore bien définies car l’application de l’IA Act est déjà en cours, et dépendra des premières décisions rendues par la justice.

👉 L’AI Act est une première étape, mais il faudra encore du temps pour voir ses effets concrets.

Se protéger et utiliser l’IA en toute sécurité 🔐

L’IA est là pour rester, et son impact sur les données personnelles est une réalité. Plutôt que d’attendre que les lois fassent tout le travail, tu peux dès maintenant adopter des réflexes simples pour protéger tes informations.

🛡️ Vérifie si un modèle d’IA respecte tes données

Toutes les IA ne sont pas égales face à la protection des données. Avant d’utiliser un outil, pose-toi les bonnes questions :

✔️ Qui est derrière le modèle ? Une entreprise reconnue ou un projet peu transparent ?
✔️ Quelles données utilise-t-il ? Certains modèles déclarent leurs sources, d’autres non.
✔️ Peux-tu effacer tes données ? Certains services permettent de demander la suppression des informations stockées.

👉 À faire : Toujours vérifier les paramètres de confidentialité et les politiques de données avant d’utiliser une IA.

🚫 Limite les informations que tu partages

Un bon réflexe ? Ne pas tout dévoiler à une IA. Même si un chatbot semble sécurisé, il peut enregistrer des conversations pour entraîner les nouveaux modèles.

Évite de partager :

  • Des informations personnelles sensibles (nom, adresse, numéro de portable).
  • Des données professionnelles confidentielles.
  • Des codes ou mots de passe.
Homme qui balance son ordi à la poubelle
Toi en découvrant tout ce que l’IA sait sur ta vie

🏁 Conclusion : l’IA peut-elle respecter nos données ?

L’intelligence artificielle révolutionne le monde, mais elle soulève aussi des questions éthiques majeures. Les modèles comme DeepSeek et OpenAI montrent que les règles ne sont pas encore claires en matière de protection des données.

L’AI Act est un premier pas vers un cadre plus strict, mais il ne suffira pas à lui seul. À toi aussi d’adopter de bonnes pratiques pour protéger tes informations et éviter d’alimenter des IA sans ton consentement.

Pour aller plus loin : prends un cours particulier avec l’un de nos profs Sherpas ! 🚀

Tu as aimé cet article ?

Ton premier cours est offert ! 🎁

4 points de plus sur ta moyenne en prenant des cours particuliers avec l’un de nos Sherpas ! 👇

profile picture
Emilie S.
Rédactrice Web
Hello, moi c’est Emilie! Je suis rédactrice stagiaire chez les Sherpas. J’adore la lecture, la cuisine, et la voile. J’espère t’aider à comprendre différents sujets avec mes articles ! 😊

Laisse-nous un commentaire !

Des questions ? Des bons plans à partager ? Nous validons ton commentaire et te répondons en quelques heures ! 🎉

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Laisse-nous un commentaire !

Des questions ? Des bons plans à partager ? Nous validons ton commentaire et te répondons en quelques heures ! 🎉

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ebooks

Découvre nos ebooks

Découvre nos ebooks

Avoir confiance en soi, trouver son stage, gagner en productivité… À chaque problème son guide pour progresser et devenir la meilleure version de toi-même ! 💪