Generatieve AI- modellen komen steeds dichter bij de realiteit. De grote AI-bedrijven introduceren al AI-agenten die webgebaseerd werk voor je kunnen doen, zoals het bestellen van je boodschappen of het reserveren van je diner. Vandaag kondigde Google DeepMind aan twee generatieve AI-modellen die zijn ontworpen om de robots van morgen aan te drijven.

De modellen zijn beide gebaseerd op Google Gemini , een multimodaal basismodel dat tekst-, spraak- en beelddata kan verwerken om vragen te beantwoorden, advies te geven en in het algemeen te helpen. DeepMind noemt het eerste van de nieuwe modellen, Gemini Robotics , een “geavanceerd model voor visie, taal en actie”, wat betekent dat het al diezelfde invoer kan verwerken en vervolgens instructies kan uitvoeren voor de fysieke handelingen van een robot. De modellen zijn ontworpen om met elk hardwaresysteem te werken, maar werden voornamelijk getest op het tweearmige Aloha 2- systeem dat DeepMind vorig jaar introduceerde.

In een demonstratievideo zegt een stem: “Pak de basketbal op en dunk hem” (op 2:27 in de video hieronder). Vervolgens pakt een robotarm voorzichtig een miniatuur basketbal op en laat hem in een miniatuur net vallen – en hoewel het geen NBA-dunk was, was het genoeg om de DeepMind-onderzoekers enthousiast te maken.