Amazon a récemment signalé au National Center for Missing and Exploited Children (NCMEC) des milliers — puis des dizaines, puis des centaines de milliers — d’occurrences de contenus pédopornographiques (CSAM) repérés dans des ensembles de données liés à ses opérations d’analyse et de détection. Si l’initiative de signaler ces éléments est positive, la société de Seattle a cependant suscité l’inquiétude des autorités et des experts : elle n’a pas fourni de détails sur l’origine de ces fichiers, entravant ainsi les enquêtes visant à identifier les auteurs et à protéger les victimes.
Que s’est‑il passé ?
Selon les informations disponibles, Amazon a mis en place un canal dédié pour remonter au NCMEC des éléments détectés automatiquement lors de procédés internes d’analyse de données. Les rapports montrent une explosion du nombre de signalements : environ 4 700 en 2023, 67 000 en 2024 et plus d’un million en 2025. Le NCMEC indique que la majorité des signalements pour 2025 proviennent d’Amazon.
Cependant, Amazon précise que ces éléments proviennent de scans de jeux de données tiers — des corpus recueillis et agrégés par des fournisseurs ou partenaires, parfois achetés ou indexés pour des usages de recherche ou d’entraînement d’outils d’analyse. Dans son message, l’entreprise admet ne pas toujours disposer des métadonnées nécessaires pour localiser précisément la source initiale des fichiers (URL, identifiants d’hébergement, traces d’upload), ce qui rend les signalements peu exploitables pour les forces de l’ordre.
Pourquoi l’absence d’origine pose un vrai problème
Pour qu’une enquête puisse aboutir, il faut des éléments techniques traçables : l’URL, l’adresse IP de l’hébergeur, des logs d’accès, des identifiants d’utilisateur, etc. Sans ces traces, le NCMEC ne peut pas demander le retrait du contenu sur la plateforme d’origine ni remonter jusqu’à l’auteur présumé. Ainsi, malgré le volume élevé de signalements, l’utilité opérationnelle de ces rapports est limitée si l’on ne peut pas relier une image ou une vidéo à un dépôt ou à une source identifiée.
Amazon n’aurait pas utilisé ces images pour entraîner ses modèles
Amazon indique par ailleurs que ces fichiers n’ont pas été utilisés pour l’apprentissage supervisé de ses modèles de production. La société affirme que ses outils de détection automatique ont une sensibilité élevée (se traduisant par un nombre important de faux positifs) et qu’ils visent essentiellement à prévenir tout risque et à informer les autorités. Néanmoins, cette position n’écarte pas la nécessité d’expliquer comment ces contenus se retrouvent au sein de datasets tiers, puis dans les flux scannés par Amazon.
Les questions techniques et éthiques soulevées
Le dilemme de la transparence
Des experts appellent Amazon à plus de transparence. L’entreprise explique que, en raison de la nature tierce des données, elle n’est pas en mesure de produire des « rapports exploitables » pour le NCMEC. Les autorités et spécialistes du secteur estiment au contraire que cette absence d’informations complique gravement la protection des victimes et l’identification d’éventuels réseaux d’exploitation.
La tension est donc manifeste : d’un côté, Amazon insiste sur son engagement et sur le fait d’avoir mis en place des mécanismes proactifs de détection ; de l’autre, le manque de renseignements techniques est perçu comme un obstacle majeur. Plusieurs voix demandent des standards sectoriels imposant la conservation de métadonnées et la traçabilité lors de la constitution et la revente de jeux de données.
Contexte réglementaire : l’AI Act et les obligations de transparence
En Europe, l’AI Act et d’autres cadres réglementaires cherchent à imposer des obligations de transparence et de responsabilité pour les acteurs qui développent et déploient des systèmes d’IA. L’affaire met en lumière la nécessité d’intégrer des exigences précises sur l’origine des données d’entraînement : provenance, consentements, métadonnées associées, présence de contenus illicites. Si des entreprises opèrent des scans proactifs, elles devraient aussi garantir que leurs signalements sont juridiquement exploitables.
Conséquences pour l’écosystème IA et les forces de l’ordre
Que demander à Amazon maintenant ?
Plusieurs demandes sont légitimes : une clarification publique sur les origines potentielles des données scannées ; la mise en place d’un format standard de rapports remis au NCMEC incluant toute métadonnée disponible ; la coopération avec les fournisseurs de données pour exiger la traçabilité en amont ; et enfin, des audits indépendants pour vérifier les processus de collecte et d’analyse.
Au‑delà du cas Amazon, cet épisode illustre une faille systémique : la mondialisation des jeux de données et l’opacité des chaînes d’agrégation rendent difficile la protection des victimes d’exploitation sexuelle. Si l’on veut que la détection automatique serve réellement la justice et la protection des personnes, il faudra imposer des règles claires sur la provenance et la traçabilité des données — et veiller à ce que les outils de détection génèrent des rapports actionnables pour les autorités compétentes.
