Panique chez Google : son IA transforme vos requêtes en ordres — ce bug qui rend Gemini trop zélé

La recherche AI de Google déraille : des requêtes deviennent des ordres exécutés par Gemini

Depuis quelques jours, plusieurs utilisateurs ont signalé un comportement étonnant — et potentiellement inquiétant — des fonctionnalités de recherche assistée par IA de Google. Les modules « AI Overview » et « AI Mode », qui devaient fournir des définitions ou des résumés, interprètent certaines requêtes comme des instructions système plutôt que comme des demandes d’information. Résultat : au lieu d’afficher la définition d’un terme, l’IA répond par des messages du type « Understood. Message disregard » ou annonce qu’elle a « annulé » l’action demandée. Google a reconnu le bug et promet un correctif dans les jours à venir, mais l’incident soulève des questions sur la fiabilité et les garde‑fous des assistants basés sur Gemini.

Quelles requêtes provoquent le bug ?

Le phénomène apparaît sur des mots qui, dans un contexte conversationnel, peuvent être interprétés comme des commandes : « disregard », « ignore », « skip », « stop », « start », « remember », « forget ». Testés dans les versions anglaise et italienne de l’outil, ces termes déclenchent la même réaction du système : au lieu d’une définition, l’IA exécute une action ou renvoie une confirmation d’exécution. En italien, par exemple, la requête « annulla » ne renvoie pas la définition du mot mais un message indiquant que l’action ou la requête précédente a été annulée.

Un comportement lié au modèle Gemini 3.5 Flash

Plusieurs indices laissent penser que la racine du problème se situe au niveau du modèle langage utilisé — Gemini 3.5 Flash — et de la façon dont il gère les signaux interprétés comme commandes. Dans des environnements conversationnels, les assistants doivent distinguer soigneusement entre une demande d’information (« que signifie X ? ») et une instruction opérationnelle (« annule cela »). Or, la frontière s’avère ici mal gérée : certains mots ambigus sont traités comme des triggers d’action système, entraînant une réponse inadaptée.

Article à lire  Mars : Curiosity découvre des molécules liées à l'ADN — la preuve que les ingrédients de la vie existaient il y a 3,5 milliards d'années ?

Un bug partiellement international

Le dysfonctionnement ne se limite pas à une langue : il a été observé en anglais et en italien, et des rapports indiquent qu’il est perceptible aussi en France. Google a confirmé la présence du bug pour AI Overview et indiqué qu’un correctif sera déployé prochainement. Cela étant, le fait que la problématique affecte plusieurs langues montre que l’origine n’est pas un simple problème de traduction mais bien un défaut dans le pipeline d’interprétation des requêtes.

Comparaison avec d’autres moteurs : Bing et Copilot en position enviable

Face à ce dysfonctionnement, la solution concurrente de Microsoft semble pour l’instant plus robuste. Les utilisateurs qui ont testé Bing Copilot (reposant sur des modèles OpenAI) n’ont pas rencontré ce type de souci : les requêtes renvoient bien des définitions et le service se comporte comme attendu. L’écart est rapidement percé au grand jour sur les réseaux sociaux et par les acteurs du secteur — y compris Merriam‑Webster, qui n’a pas manqué l’occasion d’un clin d’œil ironique en publiant la définition du mot « disregard » pendant que Gemini s’emmêlait.

Les risques et implications

  • Confiance des utilisateurs : un assistant qui exécute des « actions » par erreur peut rapidement perdre la confiance du public, surtout si des informations sensibles sont en jeu.
  • Sécurité et latence opérationnelle : interpréter une requête comme une commande peut entraîner des actions non souhaitées si l’IA se connecte à d’autres services (gestion d’e‑mails, automatisations, etc.).
  • Réputation et concurrence : une panne médiatisée porte préjudice au positionnement de Google face à Microsoft et à d’autres acteurs de l’IA.
  • Article à lire  TCLBanker : un trojan bancaire qui se propage via WhatsApp — êtes‑vous la prochaine victime ?

    Quelles explications techniques ?

    Plusieurs hypothèses techniques sont mises en avant par des experts : erreur de prompt engineering dans le pipeline d’évaluation des requêtes, mauvaise séparation des contextes « user intent » vs « system intent », ou un heuristique de détection de commandes trop agressif dans la couche de coordination entre l’interface utilisateur et le modèle. Il est aussi possible qu’un changement récent de configuration, notamment lors des déploiements post‑I/O, ait modifié la manière dont certaines tokens sont interprétés.

    Comment les utilisateurs doivent réagir ?

  • Rester prudent : éviter d’utiliser les versions d’IA pour effectuer des actions sensibles tant que le correctif n’est pas confirmé.
  • Vérifier les résultats : en cas de doute, recouper l’information avec une autre source (dictionnaire classique, autre moteur).
  • Signaler les anomalies : les retours d’utilisateurs permettent souvent d’accélérer la détection et la correction des bugs.
  • Ce que Google promet et ce qu’il reste surveiller

    Un porte‑parole de Google a déclaré que l’équipe est consciente du problème et travaille à un déploiement correctif dans les prochains jours. Reste à voir si le correctif traitera la cause racine (la mauvaise interprétation des commandes) ou se contentera d’atténuer les symptômes. Les observateurs du secteur appellent à une plus grande transparence : des journaux d’erreurs publics, des post‑mortems techniques et des garde‑fous renforcés aideraient à restaurer la confiance.

    Enjeux plus larges : vers des modèles plus robustes et explicables

    Au‑delà du correctif immédiat, l’incident rappelle que l’intégration de modèles LLM dans des interfaces de recherche nécessite des mécanismes robustes de gestion du contexte, d’explicabilité et de test multilingue. Le futur des assistants repose sur leur capacité à comprendre finement l’intention utilisateur et à séparer clairement l’information (définitions, explications) des commandes d’exécution. Tant que ces garde‑fous ne seront pas systématiquement intégrés et publiquement validés, de tels incidents risquent de se reproduire.

    Article à lire  Apple bloque Replit et Vibecode : l’App Store freine le vibe coding — menace pour l’avenir du dev assisté par IA ?

    You May Have Missed