Encyclopædia Britannica attaque OpenAI : le procès qui pourrait remettre en cause la formation des IA sur du contenu protégé

Encyclopædia Britannica attaque OpenAI : le procès qui redéfinit l’entraînement des IA

Le bras de fer juridique entre les titulaires de contenu et les fabricants de modèles d’intelligence artificielle franchit aujourd’hui une nouvelle étape : Encyclopædia Britannica et sa filiale Merriam‑Webster ont déposé une plainte fédérale à Manhattan contre OpenAI, l’accusant d’avoir utilisé des dizaines de milliers d’articles et des définitions protégées par le droit d’auteur pour entraîner ses modèles GPT. Le dossier soulève des questions fondamentales sur le « fair use », la valeur de l’information et le modèle économique des IA génératives.

Les griefs : reproduction, cannibalisation et atteinte aux marques

La plainte affirme qu’OpenAI a incorporé près de 100 000 articles de l’encyclopédie et des entrées du dictionnaire Merriam‑Webster dans ses jeux de données d’entraînement. Selon Britannica, les réponses produites par ChatGPT reprendraient parfois textuellement ou quasi‑textuellement ces contenus, privant ainsi l’encyclopédie d’un trafic précieux et détournant des utilisateurs qui, auparavant, effectuaient des recherches et consommaient directement leurs pages.

Au‑delà de la violation présumée du droit d’auteur, Britannica invoque une atteinte à ses marques. Elle soutient que lorsque ChatGPT génère une réponse inexacte — phénomène connu sous le nom d’« hallucination » —, l’erreur peut être associée à la réputation de l’encyclopédie, au point de brouiller la frontière entre la source et le moteur de génération d’information.

Un écho à d’autres procédures : la dynamique de l’ère post‑contenu

La plainte de Britannica s’inscrit dans une série d’actions similaires menées ces derniers mois par des auteurs, éditeurs et plateformes. L’argumentation est souvent la même : l’entraînement massif d’algorithmes sur du contenu protégé sans autorisation ni compensation équitable. Pour les demandeurs, le schéma est clair : les acteurs de l’IA tirent de la valeur économique d’un travail éditorial et informationnel dont la création a requis du temps, des compétences et des investissements.

Article à lire  Une IA supprime 15 ans de photos familiales : l’erreur qui révèle les limites dangereuses des assistants numériques

La réponse d’OpenAI : fair use et bénéfices sociétaux

OpenAI a répondu en soulignant que ses modèles sont alimentés par des données « disponibles publiquement » et que leur usage s’inscrit, selon elle, dans le cadre du « fair use » prévu par la loi américaine. Le groupe met également en avant l’impact positif de ses outils : facilitation de la créativité, accélération de la recherche et amélioration d’usages quotidiens pour des centaines de millions d’utilisateurs.

Le point central du litige — et ce que devra trancher le juge — est précisément la teneur du fair use : l’utilisation aura‑t‑elle été « transformative » au sens juridique, c’est‑à‑dire qu’elle a suffisamment transformé le contenu original pour qu’il ne s’agisse plus d’une simple copie ? Ou bien le modèle a‑t‑il exploité des contenus protégés de manière à remplacer leur consommation directe par une génération automatisée, causant un préjudice économique et moral aux titulaires ?

Quelles preuves et quels éléments clé pour la procédure ?

Le succès de la plainte dépendra de plusieurs éléments techniques et juridiques :

  • la nature et l’étendue des données effectivement ingérées : copies entières, extraits, métadonnées ?
  • la capacité d’identifier des passages générés par ChatGPT qui reprennent textuellement ou de manière substantielle des articles Britannica ;
  • les preuves d’un dommage économique mesurable (baisse de trafic, perte d’abonnements) lié à l’usage des réponses générées ;
  • l’analyse de la transformation opérée par les modèles : transformation créative ou simple restitution ?
  • Impacts possibles : licences, rémunérations et nouveaux modèles économiques

    Si Britannica obtient gain de cause, le secteur pourrait se retrouver devant un tournant : obligation pour les fournisseurs d’IA de négocier des licences avec éditeurs, paiement de redevances ou mise en place de mécanismes de partage de valeur. À l’inverse, un refus de la justice américaine de remettre en cause ces pratiques conforterait les développeurs d’IA dans leur stratégie actuelle, mais risquerait d’envenimer le bras de fer avec la sphère éditoriale.

    Article à lire  SpaceX propose 1 million de data centers en orbite : utopie verte ou catastrophe spatiale imminente ?

    Conséquences pour la qualité de l’information et l’utilisateur final

    Au‑delà des questions purement économiques, il y a un enjeu démocratique : quelle place pour des sources vérifiées et sourcées dans un paysage où des modèles génératifs produisent des réponses synthétiques ? Les éditeurs craignent un « appauvrissement » du circuit de validation et de rémunération du travail journalistique et encyclopédique, tandis que les partisans des IA mettent en avant l’accessibilité et la rapidité d’accès à l’information que procurent ces outils.

    Scénarios à suivre

  • Procédure judiciaire prolongée : la question du fair use devrait mobiliser des expertises techniques et juridiques approfondies ;
  • Accords extrajudiciaires : une solution de licence négociée entre OpenAI et certains grands éditeurs demeure possible et pragmatique ;
  • Évolution réglementaire : les législateurs pourraient intervenir pour encadrer l’usage des contenus protégés dans l’entraînement des modèles d’IA.
  • Une affaire symptomatique

    Cette plainte d’Encyclopædia Britannica symbolise la tension du moment : d’un côté, l’innovation technologique fondée sur des modèles entraînés à grande échelle ; de l’autre, la nécessité de reconnaître et de protéger les droits de production intellectuelle. La décision judiciaire à venir ne tranchera pas seulement un litige entre deux acteurs, elle pourrait redessiner les règles du jeu pour toute une industrie qui repose aujourd’hui sur l’accès aux connaissances et aux contenus.

    You May Have Missed