Le New York Times a franchi une nouvelle étape dans la confrontation entre la presse et les acteurs de l’intelligence artificielle : l’éditeur historique a déposé une plainte contre Perplexity, la startup californienne qui développe un « answer engine » reposant sur des modèles d’IA et un navigateur nommé Comet. L’accusation est claire : Perplexity aurait scanné et réutilisé illégalement des contenus protégés par le paywall du Times — articles, podcasts, vidéos, images — pour entraîner ses modèles et fournir des réponses ou des résumés aux utilisateurs, sans autorisation ni compensation. Ce nouvel épisode pose à nouveau la question des droits d’auteur, de la valeur du travail journalistique et des limites éthiques du « retrieval‑augmented generation ».
Ce que reproche précisément le New York Times
Selon la plainte, Perplexity a procédé à des opérations de scraping des articles du Times et a incorporé ces contenus — parfois mot à mot, parfois sous forme de résumés générés — dans les réponses délivrées par son moteur. L’éditeur affirme que ces contenus étaient protégés par un paywall et réservés aux abonnés, et que Perplexity a contourné ces restrictions pour les rendre accessibles plus largement via Comet. Le Times évoque aussi des extraits repris dans des réponses contenant des erreurs factuelles attribuées aux « hallucinations » des modèles, ce qui peut nuire à sa réputation et priver ses journalistes d’une juste rémunération.
Retrieval‑augmented generation : explication et enjeux
Le New York Times met en cause l’usage d’un procédé appelé retrieval‑augmented generation (RAG). Concrètement, RAG consiste à récupérer des passages de documents en ligne (retrieval) puis à les synthétiser ou les réutiliser pour produire une réponse (generation). Cette méthode améliore souvent la précision et la pertinence des réponses des chatbots, mais elle soulève des enjeux juridiques : jusqu’où l’accès et l’extraction de contenus publiés permettent‑ils la réutilisation sans licence ? Le Times estime que Perplexity a franchi la ligne en utilisant massivement des contenus protégés sans accord.
Une lettre de mise en garde restée sans effet
Ce litige n’est pas survenu du jour au lendemain : l’éditeur affirme avoir déjà adressé des mises en demeure l’année précédente et renouvelé ses demandes en juillet 2025. La plainte confirme que, malgré ces alertes, Perplexity a continué selon le Times à exploiter des matériaux protégés. Le New York Times réclame des dommages‑intérêts, une injonction permanente et la suppression des contenus litigieux utilisés par la startup.
La réponse — et l’ironie — de Perplexity
Face à l’action, Perplexity a répondu de façon moqueuse, se plaçant dans la longue lignée des entreprises technologiques confrontées aux médias depuis l’avènement de la radio, de la télévision, d’Internet et des réseaux sociaux. L’entreprise souligne qu’elle est régulièrement la cible de plaintes de la part d’éditeurs (liste incluant News Corp, Encyclopedia Britannica, Reddit, et maintenant The New York Times), et adopte un ton volontiers provocateur. Ce ton n’empêche pas les enjeux juridiques d’être très sérieux et susceptibles de définir des précédents.
Pourquoi cette affaire est importante pour le secteur
Les risques réputationnels et pratiques évoqués par le Times
Le New York Times indique que l’utilisation non autorisée de ses contenus entraîne deux types de dommages : économiques (perte potentielle d’abonnés et de revenus) et réputationnels (diffusion de résumés erronés ou d’informations sorties de leur contexte). Les « hallucinations » mentionnées — erreurs factuelles produites par les modèles — peuvent potentiellement diffuser des versions déformées d’articles originaux, ce qui est particulièrement sensible pour un organe d’information de référence.
Scénarios possibles et points de vigilance
Ce que les médias et les technos doivent négocier
La controverse révèle une nécessité urgente de négociation entre éditeurs et entreprises d’IA. Des modèles de collaboration existent déjà (licences, API payantes, partenariats de recherche), mais ils restent fragmentés. Un cadre plus structuré — juridique et contractuel — serait bénéfique pour définir comment l’information peut être utilisée, comment rémunérer la création originale, et comment garantir la transparence des sources dans les réponses générées.
Cette plainte marque un nouvel épisode au cœur d’un débat plus vaste : peut‑on permettre à des systèmes d’intelligence artificielle d’accéder gratuitement à des contenus protégés pour amplifier leurs performances, sans reconnaître la valeur économique et morale du travail journalistique ? La réponse juridique qui sera apportée dans les prochains mois pourrait redessiner les règles du jeu pour les médias comme pour les acteurs de l’IA.
