Les entreprises qui développent de grands modèles de langage — OpenAI, Google DeepMind, Meta ou Mistral AI — sont accusées depuis plusieurs années de puiser dans des corpus de textes dont la provenance soulève de sérieuses questions juridiques et éthiques. En avril 2026, cette opacité reste entière : aucun éditeur majeur n'a publié de liste exhaustive et vérifiable des sources ayant alimenté ses modèles.
Des corpus gigantesques aux contours flous
Entraîner un grand modèle de langage requiert des quantités de textes qui se comptent en centaines de milliards, voire en milliers de milliards de mots. Les éditeurs s'appuient principalement sur des données issues du web, partiellement constituées via des projets ouverts comme Common Crawl, une archive publique du web gérée par une organisation à but non lucratif américaine et utilisée par de nombreux acteurs du secteur. Des ensembles de données dérivés de Common Crawl — comme The Pile, publié par EleutherAI, ou C4, diffusé par Google — ont été documentés dans des articles de recherche peer-reviewed et sont considérés comme des sources de référence dans la littérature académique.
Cependant, ces sources ouvertes ne suffisent pas à couvrir l'appétit des modèles les plus récents. Des travaux de chercheurs, notamment ceux publiés par l'Allen Institute for AI ou le groupe de recherche BigScience, ont montré que ces corpus contiennent des proportions significatives de contenus soumis à droits d'auteur, de textes issus de forums, de réseaux sociaux ou de plateformes de partage de livres numériques, sans que les ayants droit aient été systématiquement consultés.
Des litiges qui révèlent les pratiques réelles
C'est en grande partie la multiplication des procédures judiciaires qui a permis de lever un coin du voile. Aux États-Unis, des plaintes déposées par le New York Times contre OpenAI et Microsoft, ou par des groupes d'auteurs contre Meta, ont conduit à la production de documents internes — dans le cadre de la procédure de discovery — révélant que des bibliothèques de livres numérisés, dont certaines alimentées par des plateformes illicites, ont bien été utilisées dans les phases d'entraînement. Meta a reconnu dans des documents judiciaires avoir utilisé le jeu de données LibGen pour entraîner ses modèles Llama, selon des pièces citées par plusieurs médias américains dont The Atlantic et NPR en 2025.
En Europe, le cadre juridique est différent : le règlement européen sur l'IA et la directive sur le droit d'auteur dans le marché unique numérique imposent aux éditeurs de systèmes d'IA générative de respecter les réserves d'exploitation des titulaires de droits. La mise en œuvre pratique de ces obligations reste cependant difficile à contrôler, faute de mécanismes de vérification indépendants robustes, comme l'ont souligné les travaux du Parlement européen publiés au cours de l'année 2025.
Une transparence encore insuffisante
Face aux pressions réglementaires et aux recours judiciaires, certains acteurs ont commencé à documenter partiellement leurs corpus. EleutherAI et l'initiative BigScience ROOTS ont publié des fiches de données détaillées. OpenAI a mentionné dans son rapport technique sur GPT-4 l'utilisation de données issues du web et de licences négociées, sans préciser les proportions ni les sources exactes. Google a indiqué dans la documentation technique de Gemini recourir à des données multimodales et à des textes issus de partenariats, sans davantage de détail public.
La pression sur ce dossier ne devrait que s'accentuer. Plusieurs régulateurs européens, dont la CNIL en France et le Data Protection Commissioner irlandais, ont ouvert des enquêtes sur la conformité des pratiques d'entraînement au regard du RGPD. Les prochains mois pourraient contraindre les éditeurs à une transparence qu'ils ont jusqu'ici soigneusement évitée.