L’impressionnante démo de Gemini, l’IA de Google qui veut détrôner GPT-4

926

Gemini est un « large langage model » (LLM) dit « multimodal ». Traduction : il est capable de comprendre du texte, des images et des vidéos et de répondre à l’écrit ou à l’oral. Selon Google, la version ultra a pour la première fois battu l’humain à un test MMLU, qui mesure la compréhension et les capacités de raisonnement dans de multiples domaines (langage, maths, histoire, physique, médecine, droit et éthique).

La course à l’intelligence artificielle passe la seconde. Google a dévoilé mercredi son modèle d’IA le plus puissant, baptisé Gemini, qui bat la référence GPT-4 sur de nombreux tests, assure l’entreprise californienne. Une version allégée a aussitôt été integrée à son assistant intelligent Bard et à son smartphone Pixel 8 Pro – mais pas dans l’UE pour l’instant. Il faudra toutefois attendre début 2025 pour voir si Gemini Ultra, la déclinaison la plus puissante, fait vraiment de l’ombre à OpenAI. Selon les capacités dévoilées dans une vidéo, si Google n’a pas truandé au montage, les promesses pourraient bien être tenues.

Compréhension et déduction

Dans une démonstration de 5 minutes, un utilisateur montre des objets, des dessins et des vidéos à Gemini. Le système d’IA commente à l’oral ce qu’il « voit », identifie les objets, joue de la musique et répond à des questions requérant un certain degré d’analyse, en justifiant son « raisonnement ».

Il identifie rapidement le croquis d’un canard, puis déduit ensuite qu’il s’agit d’un jouet en plastique. Gemini invente ensuite un jeu où il faut deviner un pays à partir d’une série d’emojis. Il suffit de montrer le pays du doigt, et la machine le reconnaît. Elle se débrouille également au bonneteau puis suggère des objets à tricoter à partir de deux pelotes de laine de couleur différente. L’IA tente de deviner la fin d’une vidéo dans laquelle un chat saute sur une étagère, estimant que le félin va réussir. C’est raté, mais c’est plus de la faute du chat qui se plante que de l’IA.

Google, comme OpenAI, met les bouchées doubles pour atteindre le Graal: une intelligence artificielle générale (AGI), capable de raisonner aussi bien, voire mieux, que les humains. Certains experts spéculent que ce n’est qu’une question de puissance mais d’autres sont loin d’être convaincus, estimant que l’intelligence de la machine est limitée par sa faible perception du monde réel. Google compte régler ce problème en intégrant son IA à des robots bénéficiants de capacités sensorielles avancées, notamment du toucher.

S’abonner
Notification pour
guest

0 Commentaires
Commentaires en ligne
Afficher tous les commentaires