Computer Use de Gemini 2.5 surpasse ses rivaux

·

·

Gemini 2.5 Computer Use automatise la navigation web des agents IA
Résumer cet article avec :

Google lance Gemini 2.5 Computer Use, un modèle d’intelligence artificielle spécialisé dans l’automatisation des interactions avec les interfaces graphiques des navigateurs web. Ce outil permet aux agents IA de naviguer de manière autonome, en cliquant sur des boutons et en remplissant des formulaires, sans recourir à des API structurées. Positionné comme un concurrent direct d’OpenAI et d’Anthropic, ce lancement marque une avancée significative dans la course aux agents autonomes.


À retenir

  • Gemini 2.5 Computer Use est basé sur Gemini 2.5 Pro et simule des actions humaines sur les IHM.
  • Le modèle utilise des captures d’écran pour analyser et interagir via une boucle d’agent.
  • Il surpasse les concurrents en benchmarks, avec une augmentation de performance jusqu’à 18 %.
  • Disponible en préversion publique via Google AI Studio et Vertex AI.
  • Applications principales : automatisation de saisie de données et tests d’applications web.
  • Risques de sécurité incluent les attaques par injection de prompt, nécessitant une supervision humaine.

Ce lancement intervient un jour après le Dev Day 2025 d’OpenAI, soulignant l’intensification de la concurrence dans le domaine des agents IA autonomes. Gemini 2.5 Computer Use répond à un besoin croissant d’automatisation efficace pour les développeurs, en rendant accessible une technologie auparavant limitée aux prototypes internes comme Project Mariner. Pour les entreprises et les professionnels de l’informatique, cet outil promet d’accélérer les tâches répétitives tout en posant des questions sur la sécurité et la fiabilité dans un contexte d’adoption rapide de l’IA agentique.

Présentation de Gemini 2.5 Computer Use

Gemini 2.5 Computer Use représente une innovation clé dans l’automatisation IA de Google, centrée sur l’interaction directe avec les interfaces utilisateur graphiques.

Définition et positionnement technologique

Ce modèle spécialisé repose sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro. Il permet aux développeurs de concevoir des agents capables d’exécuter des tâches numériques complexes sur le web. Identifié par le nom gemini-2.5-computer-use-preview-10-2025, il marque la première version commerciale d’une technologie issue du prototype de recherche Project Mariner.

Résolution des défis d’interaction IHM

L’objectif principal est de surmonter les limitations des applications sans API structurées. Les agents IA simulent des interactions humaines, comme cliquer sur des boutons ou faire défiler l’écran. Cette approche résout le défi de l’automatisation des IHM, ou GUI, en rendant les tâches autonomes sans intervention manuelle constante.

Mécanismes techniques du modèle

Le fonctionnement de Gemini 2.5 Computer Use s’appuie sur une architecture cyclique optimisée pour l’analyse visuelle et l’exécution d’actions précises dans les environnements numériques.

Boucle d’agent et compréhension visuelle par capture d’écran

La boucle d’agent initie le cycle par l’envoi d’une requête incluant l’objectif utilisateur et une capture d’écran de l’IHM actuelle. Le modèle analyse cette image pour générer une réponse avec un function_call, spécifiant une action comme un clic aux coordonnées (x,y). Le code client exécute l’action, capture le nouvel état, et relance la boucle pour itérer.

Actions IHM et environnements pris en charge

Les actions incluent la saisie de texte, le défilement et le remplissage de formulaires. Le modèle est optimisé pour les navigateurs web, avec un potentiel pour les IHM mobiles. Les développeurs peuvent personnaliser les fonctions ou exclure des actions prédéfinies via excluded_predefined_functions, évitant ainsi les interactions non désirées au niveau du système d’exploitation de bureau.

Performances et applications pratiques

Gemini 2.5 Computer Use démontre des avancées mesurables en efficacité, positionnant Google comme leader dans l’automatisation ciblée des navigateurs.

Avantages compétitifs en benchmarks et latence

Sur plusieurs benchmarks de contrôle web et mobile, le modèle surpasse les alternatives avec une latence réduite. Selon Autotab, un partenaire, il augmente les performances jusqu’à 18 % sur les évaluations les plus complexes grâce à une analyse contextuelle fiable. Un témoignage supplémentaire rapporte qu’il corrige avec succès plus de 60 % des workflows défaillants.

Ce modèle a permis de fixer plus de 60 % des exécutions défaillantes dans nos tests automatisés.

Un témoignage anonyme relayé par Google sur les performances en automatisation.

Cas d’usage dans l’automatisation et positionnement marché

Les applications couvrent la saisie de données répétitive et le remplissage automatique de formulaires. Il facilite aussi les tests automatisés d’applications web et la collecte de données comme les prix ou avis en e-commerce. Ce focus exclusif sur les navigateurs distingue Google de rivaux comme ChatGPT Agent d’OpenAI ou Claude for Chrome d’Anthropic, en optimisant les performances tout en minimisant les risques de contrôle étendu du bureau.

Accès, sécurité et limitations du modèle

Malgré ses avancées, Gemini 2.5 Computer Use en préversion soulève des préoccupations sur la fiabilité et les vulnérabilités, invitant à une utilisation prudente.

Disponibilité pour les développeurs et démonstrations

Le modèle est accessible en public preview via l’API Gemini sur Google AI Studio et Vertex AI. Des environnements de démo incluent une implémentation de référence et des intégrations comme Browserbase. Les développeurs peuvent tester rapidement ses capacités d’agent dans des scénarios réels.

Risques, supervision et politique d’utilisation

En tant que préversion, il peut présenter des erreurs et des vulnérabilités de sécurité. Google déconseille son usage pour des décisions critiques ou des données sensibles, où des erreurs irréversibles poseraient problème. Les risques incluent des actions inappropriées dues à des entrées contradictoires ou des attaques par injection de prompt, où des instructions malveillantes cachées dans des sites web pourraient voler des données ou initier des transactions non autorisées.

Une supervision humaine étroite est impérative, avec un respect strict de la politique d’utilisation interdite. Les clients ne doivent pas contourner les réponses de sécurité requérant une confirmation utilisateur. Ce cadre vise à équilibrer innovation et prudence dans l’adoption des agents IA.


Sur le même Thème :

Laisser un commentaire