Image Description

Prisca Huguenot

13 octobre 2025
Image Description

Google Gemini

Google Gemini apprend à naviguer sur le web comme un humain.

Source : Pexel

Avec la sortie de Gemini 2.5 Computer Use, Google franchit une étape vers des agents capables d’interagir directement avec les pages web. Une innovation prometteuse, mais sous haute surveillance.

Une nouvelle génération d’agents web autonomes

Google DeepMind vient de dévoiler en avant-première publique un modèle d’intelligence artificielle capable de naviguer sur Internet comme un utilisateur humain.
Basé sur Gemini 2.5 Pro, le système, baptisé Gemini 2.5 Computer Use, peut cliquer, saisir du texte, faire défiler des pages et interagir avec des interfaces web de manière autonome.

Il suffit de formuler une requête en langage naturel, comme : « Ouvre Wikipédia, recherche "Atlantide" et résume l’histoire du mythe dans la pensée occidentale. »

Le modèle ouvre alors le site, identifie les éléments visuels pertinents (boutons, champs de texte, menus), exécute la tâche étape par étape et affiche son raisonnement en temps réel.
En cas de demande sensible — comme un achat en ligne — il peut solliciter une confirmation manuelle avant d’agir.

De la simple recherche à l’action intelligente

Gemini 2.5 Computer Use va bien au-delà du simple chatbot conversationnel.
Son fonctionnement repose sur une boucle itérative, lui permettant de mémoriser le contexte de ses actions sur une page donnée pour adapter sa stratégie.
Autrement dit, plus il interagit avec un site, plus il devient efficace.

Dans les démonstrations publiées par Google, l’agent met à jour un outil de gestion client ou réorganise des notes sur Jamboard, un service pourtant abandonné depuis 2018 — preuve de sa capacité à comprendre les interfaces complexes.

Google affirme que le modèle surpasse les outils concurrents d’OpenAI et d’Anthropic sur plusieurs benchmarks de navigation web, dont Online-Mind2Web, un cadre d’évaluation reconnu.

Une IA multi-environnements

Si Gemini 2.5 Computer Use est d’abord conçu pour le web de bureau, Google précise qu’il affiche des résultats prometteurs sur mobile.
Le modèle est déjà disponible via l’API Gemini et sur Vertex AI, et une version de démonstration peut être testée sur Browserbase.

Cette approche ouvre la voie à des usages professionnels automatisés : gestion de comptes clients, saisie de données, mise à jour de tableaux de bord, ou encore automatisation de workflows web complexes.

Des garde-fous nécessaires

Pour éviter toute dérive, Google a intégré des mécanismes de sécurité avancés :

  • demande de confirmation avant certaines actions (achats, modifications de données sensibles),
  • blocage des tentatives de contournement de CAPTCHA,
  • interdiction d’accès à certains systèmes critiques, comme les dispositifs médicaux.

Malgré cela, le modèle reste sujet à certaines limites : hallucinations, erreurs de raisonnement logique ou mauvaise interprétation de contexte — des défauts encore courants chez les modèles fondés sur le langage.

Anthropic a d’ailleurs montré récemment que même les IA avancées pouvaient mal juger des situations apparemment simples, soulignant la nécessité d’un contrôle humain permanent.

Un pas vers les agents autonomes du futur

Avec Gemini 2.5 Computer Use, Google pousse la frontière entre automatisation et autonomie. Ces agents capables d’interagir directement avec le web pourraient révolutionner les outils de productivité, le support client ou la gestion de données. Mais cette puissance nouvelle soulève aussi des enjeux cruciaux de sécurité, de fiabilité et d’éthique. L’ère des IA capables d’agir sur Internet sans supervision totale vient à peine de commencer.

Les commentaires sont clos

Newsletter

2022 © Tous droits réservés.