Amazon signale des milliers de contenus pédopornographiques dans ses datasets — mais refuse de dire d’où ils viennent : pourquoi l’enquête bloque

Amazon a récemment signalé au National Center for Missing and Exploited Children (NCMEC) des milliers — puis des dizaines, puis des centaines de milliers — d’occurrences de contenus pédopornographiques (CSAM) repérés dans des ensembles de données liés à ses opérations d’analyse et de détection. Si l’initiative de signaler ces éléments est positive, la société de Seattle a cependant suscité l’inquiétude des autorités et des experts : elle n’a pas fourni de détails sur l’origine de ces fichiers, entravant ainsi les enquêtes visant à identifier les auteurs et à protéger les victimes.

Que s’est‑il passé ?

Selon les informations disponibles, Amazon a mis en place un canal dédié pour remonter au NCMEC des éléments détectés automatiquement lors de procédés internes d’analyse de données. Les rapports montrent une explosion du nombre de signalements : environ 4 700 en 2023, 67 000 en 2024 et plus d’un million en 2025. Le NCMEC indique que la majorité des signalements pour 2025 proviennent d’Amazon.

Cependant, Amazon précise que ces éléments proviennent de scans de jeux de données tiers — des corpus recueillis et agrégés par des fournisseurs ou partenaires, parfois achetés ou indexés pour des usages de recherche ou d’entraînement d’outils d’analyse. Dans son message, l’entreprise admet ne pas toujours disposer des métadonnées nécessaires pour localiser précisément la source initiale des fichiers (URL, identifiants d’hébergement, traces d’upload), ce qui rend les signalements peu exploitables pour les forces de l’ordre.

Pourquoi l’absence d’origine pose un vrai problème

Pour qu’une enquête puisse aboutir, il faut des éléments techniques traçables : l’URL, l’adresse IP de l’hébergeur, des logs d’accès, des identifiants d’utilisateur, etc. Sans ces traces, le NCMEC ne peut pas demander le retrait du contenu sur la plateforme d’origine ni remonter jusqu’à l’auteur présumé. Ainsi, malgré le volume élevé de signalements, l’utilité opérationnelle de ces rapports est limitée si l’on ne peut pas relier une image ou une vidéo à un dépôt ou à une source identifiée.

Article à lire  Les compétences clés développées en bts mco

Amazon n’aurait pas utilisé ces images pour entraîner ses modèles

Amazon indique par ailleurs que ces fichiers n’ont pas été utilisés pour l’apprentissage supervisé de ses modèles de production. La société affirme que ses outils de détection automatique ont une sensibilité élevée (se traduisant par un nombre important de faux positifs) et qu’ils visent essentiellement à prévenir tout risque et à informer les autorités. Néanmoins, cette position n’écarte pas la nécessité d’expliquer comment ces contenus se retrouvent au sein de datasets tiers, puis dans les flux scannés par Amazon.

Les questions techniques et éthiques soulevées

  • Origine des jeux de données : qui collecte, agrège et revend ces corpus ? Sont‑ils conformes à des standards de traçabilité et de respect des droits fondamentaux ?
  • Traçabilité et conservation des métadonnées : si une entreprise scanne des fichiers tiers, doit‑elle exiger en amont des métadonnées exploitables pour faciliter toute action judiciaire ?
  • Gestion des faux positifs : une sensibilité excessive peut générer des milliers de signalements « non actionnables », mais masquer aussi des cas réellement exploitables.
  • Responsabilité des acteurs : quelle est la part de responsabilité des agrégateurs de données, des plateformes et des entreprises de tech qui scannent ces ensembles ?
  • Le dilemme de la transparence

    Des experts appellent Amazon à plus de transparence. L’entreprise explique que, en raison de la nature tierce des données, elle n’est pas en mesure de produire des « rapports exploitables » pour le NCMEC. Les autorités et spécialistes du secteur estiment au contraire que cette absence d’informations complique gravement la protection des victimes et l’identification d’éventuels réseaux d’exploitation.

    Article à lire  Choc en Europe : Shein sommée d’expliquer la vente de poupées à connotation infantile — la plate‑forme menacée de fermeture

    La tension est donc manifeste : d’un côté, Amazon insiste sur son engagement et sur le fait d’avoir mis en place des mécanismes proactifs de détection ; de l’autre, le manque de renseignements techniques est perçu comme un obstacle majeur. Plusieurs voix demandent des standards sectoriels imposant la conservation de métadonnées et la traçabilité lors de la constitution et la revente de jeux de données.

    Contexte réglementaire : l’AI Act et les obligations de transparence

    En Europe, l’AI Act et d’autres cadres réglementaires cherchent à imposer des obligations de transparence et de responsabilité pour les acteurs qui développent et déploient des systèmes d’IA. L’affaire met en lumière la nécessité d’intégrer des exigences précises sur l’origine des données d’entraînement : provenance, consentements, métadonnées associées, présence de contenus illicites. Si des entreprises opèrent des scans proactifs, elles devraient aussi garantir que leurs signalements sont juridiquement exploitables.

    Conséquences pour l’écosystème IA et les forces de l’ordre

  • Renforcement des exigences de traçabilité pour les fournisseurs de datasets ;
  • Coordination accrue nécessaire entre entreprises tech et autorités policières pour définir des formats de rapport utiles ;
  • Possibilité d’une réglementation imposant la conservation de métadonnées critiques lors de toute collecte/agrégation de contenus à grande échelle.
  • Que demander à Amazon maintenant ?

    Plusieurs demandes sont légitimes : une clarification publique sur les origines potentielles des données scannées ; la mise en place d’un format standard de rapports remis au NCMEC incluant toute métadonnée disponible ; la coopération avec les fournisseurs de données pour exiger la traçabilité en amont ; et enfin, des audits indépendants pour vérifier les processus de collecte et d’analyse.

    Article à lire  2025, troisième année la plus chaude selon Copernicus : ce que cache vraiment ce bilan et pourquoi il vous concerne

    Au‑delà du cas Amazon, cet épisode illustre une faille systémique : la mondialisation des jeux de données et l’opacité des chaînes d’agrégation rendent difficile la protection des victimes d’exploitation sexuelle. Si l’on veut que la détection automatique serve réellement la justice et la protection des personnes, il faudra imposer des règles claires sur la provenance et la traçabilité des données — et veiller à ce que les outils de détection génèrent des rapports actionnables pour les autorités compétentes.

    You May Have Missed