Deux auteurs accusent Apple de piratage massif pour entraîner son IA : révélations choc !
Deux auteurs portent plainte contre Apple pour utilisation de copies piratées
Grady Hendrix et Jennifer Roberson, écrivains reconnus dans leurs genres respectifs, ont déposé une plainte en justice accusant Apple d’avoir exploité illégalement leurs œuvres pour entraîner deux de ses modèles d’intelligence artificielle : OpenELM et les algorithmes de la plateforme Apple Intelligence. Selon la plainte, Apple aurait intégré à son corpus de données des exemplaires pirates de leurs livres, issus du dataset RedPajama, lui-même compilé à partir de matériaux douteux comme Book3, une version dérivée de The Pile.
RedPajama et Book3 : un terrain miné pour les droits d’auteur
Le dataset RedPajama, mis à disposition en open source, inclut plusieurs sous-ensembles dont Books, qui s’appuie sur Book3. Or, Book3 contient environ 196 640 livres piratés provenant de Bibliotik, surnommée la « bibliothèque de l’ombre ». Ces collections non autorisées ont servi à l’entraînement de modèles OpenELM hébergés sur la plateforme Hugging Face depuis plus d’un an. Apple reconnaît dans ses documents internes l’usage de ce dataset pour optimiser ses IA, ouvrant la porte à d’importantes revendications de violation de copyright.
OpenELM et Apple Intelligence : même reproche, deux usages distincts
La plainte distingue deux applications : OpenELM, un modèle open source revendiqué par Apple comme « sans lien direct avec des fonctionnalités commerciales », et Apple Intelligence, dont le contenu génère des revenus directs pour la marque à la pomme. Les avocats de Hendrix et Roberson estiment que, si Apple a tenté de minimiser l’impact de l’usage d’extraits pour OpenELM, elle n’a pas hésité à exploiter ces mêmes données pirates pour sa propre plateforme payante, échappant ainsi aux redevances dues aux auteurs originaux.
Les demandes formulées devant la cour
Dans leur recours, les plaignants sollicitent plusieurs mesures :
Précédents et défense d’Apple
Apple n’en est pas à son premier affrontement juridique sur l’usage de contenus tiers. Déjà, l’entreprise avait été citée en exemple pour l’exploitation sans accord de sous-titres YouTube dans d’autres modèles d’IA. À chaque fois, la défense d’Apple reposait sur l’absence de profit direct lié à l’usage de ces données spécifiques. Cette fois, les auteurs soulignent que la monétisation d’Apple Intelligence prouve le contraire, rendant l’argument de l’usage non lucratif inopérant.
Enjeux pour l’avenir de l’IA et du droit d’auteur
Cette action en justice intervient dans un contexte où la législation peine à suivre le rythme effréné des innovations en intelligence artificielle. Le cas de RedPajama illustre la difficulté de contrôler la provenance des données massivement utilisées pour entraîner les modèles. Si la cour devait donner raison aux auteurs, cela ouvrirait la voie à de nombreuses revendications similaires, poussant éditeurs et plateformes à mieux sécuriser les licences d’utilisation. Pour les géants de la tech, le message est clair : la libre disponibilité d’un dataset ne garantit pas l’absence d’obligations légales envers les créateurs d’origine.