La société technologique Google a annoncé un partenariat avec Boston Dynamics pour intégrer ses modèles de raisonnement incarné Gemini Robotics dans le robot quadrupède Spot, marquant une avancée dans l'application de l'intelligence artificielle à la robotique du monde réel. Cette collaboration permet au robot de mieux interpréter son environnement, d'identifier des objets et d'exécuter des tâches basées sur des instructions en langage naturel, plutôt que de se fier uniquement à des routines préprogrammées.
L'intégration s'appuie sur des travaux expérimentaux menés lors d'un hackathon interne en 2025, où les développeurs ont exploré comment les grands modèles de langage et les systèmes de raisonnement visuel pourraient améliorer l'autonomie de Spot. En exploitant Gemini Robotics, le robot peut traiter les entrées visuelles de ses caméras et traduire des instructions de haut niveau—comme organiser des objets dans une pièce—en actions physiques coordonnées.
Contrairement à la programmation robotique traditionnelle, qui dépend souvent d'une logique rigide, étape par étape, le système introduit une interface plus flexible basée sur des invites conversationnelles. Les développeurs ont créé une couche logicielle intermédiaire utilisant le kit de développement logiciel de Spot, permettant aux modèles Gemini de communiquer avec l'interface de programmation d'application du robot. Ce cadre permet à l'IA de sélectionner parmi un ensemble défini d'actions, incluant la navigation, la détection d'objets, la capture d'images, la préhension et le placement.
Lors de démonstrations pratiques, le système a montré sa capacité à interpréter des instructions générales et à s'adapter à des environnements dynamiques. Par exemple, lorsqu'il était chargé d'organiser des objets, le modèle d'IA a analysé les données visuelles, identifié les objets pertinents et dirigé le robot à travers une séquence d'actions. Les retours du robot—tels que l'achèvement de la tâche ou les contraintes physiques—ont été incorporés en temps réel, permettant au système d'ajuster son comportement sans intervention manuelle.
L'approche maintient des limites opérationnelles en restreignant l'IA aux capacités prédéfinies dans l'API du robot, garantissant des performances prévisibles et contrôlées. Cette conception équilibre l'adaptabilité avec la sécurité, une considération clé pour le déploiement de l'IA dans les systèmes physiques.
Le partenariat met également en évidence des gains d'efficacité potentiels pour les développeurs. En réduisant le besoin de codage manuel extensif, les interfaces en langage naturel permettent aux ingénieurs de se concentrer sur la définition d'objectifs plutôt que de programmer chaque séquence d'action. Ce changement pourrait accélérer le développement d'applications robotiques dans des secteurs tels que la fabrication, l'inspection et la logistique.
Bien que la mise en œuvre reste expérimentale, la démonstration reflète des tendances plus larges dans l'IA physique, où les modèles fondamentaux sont de plus en plus utilisés pour améliorer la perception et la prise de décision des machines. Les deux sociétés ont indiqué que d'autres développements sont en cours, notamment l'intégration continue de systèmes basés sur Gemini dans les plateformes robotiques.
La collaboration suggère une transition vers une interaction homme-machine plus intuitive, où le comportement robotique complexe peut être guidé par des entrées simplifiées. À mesure que les modèles d'IA continuent d'évoluer, de telles intégrations pourraient élargir la portée fonctionnelle des systèmes autonomes tout en réduisant les barrières techniques à leur déploiement.
L'article Google et Boston Dynamics intègrent les modèles Gemini Robotics dans Spot pour une perception avancée et une exécution de tâches est apparu en premier sur Metaverse Post.


