Les données d'entraînement des grands modèles d'IA restent l'un des sujets les plus sensibles du secteur. Les entreprises expliquent rarement en détail quels textes, livres, sites, bases de données ou métadonnées ont servi à entraîner leurs modèles. Cette opacité était souvent présentée comme une nécessité technique ou commerciale. Elle devient désormais un risque juridique, car les éditeurs, auteurs et ayants droit veulent savoir si leurs contenus ont été utilisés sans autorisation.
Les plaintes récentes montrent que le débat s'est durci. En mai 2026, plusieurs grands éditeurs américains, dont Hachette, Macmillan, McGraw Hill, Elsevier et Cengage, ainsi que l'auteur Scott Turow, ont poursuivi Meta. Ils accusent l'entreprise d'avoir utilisé des livres et articles protégés, notamment issus de sources piratées, pour entraîner Llama. Meta conteste ces accusations et défend l'idée que l'entraînement de modèles peut relever du fair use.
OpenAI fait aussi face à des plaintes
OpenAI est également visée par plusieurs procédures. Britannica et Merriam-Webster ont poursuivi l'entreprise en affirmant que leurs contenus avaient été utilisés sans permission pour entraîner des modèles et que certaines réponses pouvaient concurrencer directement leurs articles. Nielsen Gracenote a aussi engagé une action liée à l'utilisation présumée de métadonnées de films et de programmes télévisés. Dans ces dossiers, la question n'est pas seulement de savoir si un modèle a lu un texte, mais si des contenus protégés ont été copiés, mémorisés, reproduits ou utilisés pour remplacer une source originale.
Les entreprises d'IA répondent en général que l'entraînement sur des données accessibles publiquement peut être légal et transformateur. Les plaignants répliquent que l'accès public ne vaut pas autorisation, surtout lorsque les données viennent de bibliothèques piratées ou de bases commerciales. Tant que les tribunaux n'ont pas fixé une ligne claire, chaque nouveau dossier ajoute de la pression.
L'Europe impose un début de réponse
L'Union européenne pousse désormais les fournisseurs de modèles d'IA à documenter leurs données d'entraînement. La Commission a publié un modèle de résumé public pour les fournisseurs de modèles d'IA à usage général. Ce résumé doit donner des informations sur les types de contenus, les sources de données, le scraping en ligne, les données privées ou synthétiques et certaines mesures liées au droit d'auteur.
Cette obligation ne force pas les entreprises à publier chaque fichier utilisé. Elle cherche plutôt à donner aux titulaires de droits une base pour comprendre les grandes sources d'entraînement et exercer leurs droits. Les fournisseurs veulent protéger leurs secrets commerciaux; les créateurs demandent plus de détail. Le compromis sera probablement contesté, mais il marque une rupture avec l'opacité presque totale des premières années.
La transparence des données d'entraînement devient donc un sujet central pour l'IA générative. Les modèles ne sont plus jugés seulement sur leurs performances. Ils sont aussi évalués sur la provenance des contenus qui les ont construits, les licences respectées et les preuves disponibles. Pour les entreprises d'IA, documenter les données n'est plus une formalité; c'est une condition de confiance et, de plus en plus, de conformité.