Le débat sur l'intelligence artificielle et les droits d'auteur se déplace. Pendant longtemps, la discussion publique s'est concentrée sur une question assez visible : un modèle peut-il imiter un auteur, un artiste ou un média ? Cette question reste importante, mais elle ne suffit plus. Les contentieux récents montrent que le cœur du sujet est souvent plus matériel : quelles œuvres ont été copiées, à quel moment, dans quel corpus, avec quels traitements et avec quelles possibilités de preuve pour les ayants droit ?
C'est ce que la sociologie des algorithmes permet de mieux comprendre. Dans leurs travaux sur le contrôle de l'IA, Bilel Benbouzid et Dominique Cardon insistent sur le fait qu'un système d'IA n'est pas seulement un logiciel autonome. Il s'inscrit dans des chaînes de données, de mesures, de décisions et d'institutions. Pour les droits d'auteur, cette lecture est utile : le problème n'est pas seulement de savoir si une sortie ressemble à une œuvre humaine, mais de comprendre ce que le modèle rend calculable et exploitable.
La preuve devient centrale
Les plaintes déposées contre de grands acteurs de l'IA illustrent ce déplacement. Des éditeurs et auteurs accusent plusieurs entreprises d'avoir utilisé des livres, articles, bases de données ou métadonnées protégés sans autorisation. Les entreprises répondent souvent que l'entraînement peut relever du fair use ou d'exceptions de fouille de textes et de données. Entre les deux, une question pratique revient sans cesse : comment prouver ce qui a été utilisé, supprimé, filtré ou conservé ?
Les procédures contre Meta, OpenAI ou d'autres sociétés ne se limitent donc pas à une querelle théorique sur la création. Elles portent aussi sur des listes de fichiers, des sources de scraping, des jeux de données publics ou privés, des reproductions partielles et des traces techniques. Si les ayants droit ne peuvent pas savoir si leurs contenus ont servi à entraîner un modèle, ils ont peu de moyens concrets pour faire valoir leurs droits.
L'Europe pousse vers plus de transparence
Le règlement européen sur l'IA tente de répondre à ce manque d'information. La Commission européenne a publié un modèle de résumé public des contenus d'entraînement pour les fournisseurs de modèles d'IA à usage général. L'objectif est de fournir un socle commun : types de contenus utilisés, grandes sources de données, données collectées en ligne, traitements pertinents et éléments utiles aux titulaires de droits.
Cette transparence ne règle pas tout. Les fournisseurs veulent protéger leurs secrets commerciaux et les ayants droit demandent souvent un niveau de détail plus élevé. Mais elle change déjà le terrain du débat. Plus les données d'entraînement deviennent documentées, plus la discussion peut quitter les impressions générales pour porter sur des faits vérifiables.
Le sujet des droits d'auteur dans l'IA ne se résume donc pas à une opposition entre innovation et création. Il touche à la capacité de suivre les données, d'identifier les usages et de donner aux auteurs des moyens de contrôle réels. C'est là que les algorithmes rendent le conflit plus visible : ils transforment des œuvres en éléments mesurables, mais cette mesure doit pouvoir être discutée, auditée et contestée.