Anthropic dévoile une IA capable de contrôler un ordinateur
Elle peut désormais interagir directement avec les interfaces utilisateur.
La dernière innovation d'Anthropic, à travers son modèle Claude 3.5 Sonnet, introduit une fonctionnalité en version bêta publique où l'IA peut désormais contrôler un ordinateur en observant l'écran, en déplaçant le curseur, en cliquant sur des boutons et en tapant du texte. Baptisée "computer use" (utilisation de l'ordinateur), elle est disponible dès aujourd'hui via l'API, permettant aux développeurs de diriger Claude pour qu'il interagisse avec un ordinateur comme le ferait un humain, comme démontré sur un Mac dans une vidéo récemment publiée. Cette avancée marque un tournant important dans l'évolution des modèles d'intelligence artificielle, car elle pousse les capacités des agents conversationnels au-delà de la simple compréhension et génération de texte. Désormais, Claude peut potentiellement effectuer des tâches sur un ordinateur, ce qui ouvre des possibilités passionnantes.
Un pas en avant par rapport aux concurrents
Bien que des entreprises comme Microsoft, avec sa fonctionnalité Copilot Vision, et OpenAI, avec son application de bureau pour ChatGPT, aient déjà montré les capacités de leurs outils en matière de reconnaissance de l'écran, aucune n'avait encore franchi le pas d'une sortie publique d'une IA capable d’interagir avec des interfaces utilisateur de manière aussi dynamique. Google propose également des fonctionnalités similaires dans son application Gemini sur les téléphones Android, mais là encore, ces capacités sont limitées à la reconnaissance visuelle et ne permettent pas une interaction directe, comme le fait "computer use" de Claude. Rabbit, une autre entreprise du secteur, avait également promis des capacités équivalentes pour son modèle R1, mais elle n’a pas encore livré de version publique.
Un modèle en cours de perfectionnement
Malgré cette avancée impressionnante, Anthropic reste prudent quant à l'efficacité de cette nouvelle fonctionnalité. L’entreprise met en garde par rapport au fait que l’utilisation de l’ordinateur par Claude est encore expérimentale et peut être lente et sujette à des erreurs. Dans un communiqué, elle précise:
"Nous lançons cette fonctionnalité en avance afin de recueillir des retours de la part des développeurs et nous nous attendons à ce que cette capacité s'améliore rapidement au fil du temps."
Cette version initiale présente encore des limites. De nombreuses actions courantes, telles que le glissement ou le zoom, ne sont pas encore à la portée de l'IA. De plus, le modèle utilise une approche dite du "flipbook" pour observer l'écran. Cela signifie que Claude prend une série de captures d’écran qu’il recolle pour reconstituer l’interface, plutôt que de visionner un flux vidéo continu. Cette méthode a ses inconvénients, notamment le risque de manquer certaines actions brèves ou des notifications fugaces. En outre, Anthropic a mis en place des restrictions concernant l’utilisation de Claude sur certaines plateformes. L'IA a été explicitement programmée pour éviter les interactions avec les réseaux sociaux et les activités politiques. L’entreprise s’explique :
"Des mesures ont été mises en place pour surveiller lorsque Claude est sollicité pour s'engager dans des activités liées aux élections, ainsi que des systèmes pour le dissuader de participer à des activités comme la génération et la publication de contenu sur les réseaux sociaux, l'enregistrement de domaines web, ou l'interaction avec des sites gouvernementaux."
Ces restrictions montrent bien qu'elle vise à utiliser cette technologie de manière responsable, en limitant les usages potentiellement controversés ou risqués pour éviter des dérives.
Claude 3.5 Sonnet: des performances en nette amélioration
En parallèle, Anthropic annonce que son modèle Claude 3.5 Sonnet a été grandement amélioré par rapport à son prédécesseur sur de nombreux benchmarks. Fait notable, ces mises à niveau sont offertes aux clients sans augmentation de prix ni de temps de traitement. Elles se reflètent dans plusieurs domaines, notamment le codage agentique et les tâches d'utilisation d'outils. Concernant le codage, Claude 3.5 Sonnet a fait un bond en avant en termes de performance. Par exemple, sur le benchmark SWE-bench Verified, il a amélioré son score de 33,4 % à 49,0 %, surpassant tous les autres modèles publics, y compris des systèmes spécialisés et des modèles de raisonnement comme OpenAI o1-preview.
En ce qui concerne l'utilisation d'outils, il a également montré une nette progression, avec une amélioration de son score sur le TAU-bench (une tâche d’utilisation d’outils agentiques) dans le domaine du commerce de détail, passant de 62,6 % à 69,2 %. Dans le secteur plus complexe de l'aviation, Claude a vu ses performances augmenter de 36,0 % à 46,0 %. Ces chiffres impressionnants le positionnent comme un acteur clé dans la course aux IA les plus performantes et les plus polyvalentes.