Quand OpenAI apprend à son IA comment jouer à Minecraft

Des chercheurs d’OpenAI ont entraîné leur intelligence artificielle à jouer à Minecraft. Ils ont réalisé cela à partir d’un immense corpus de données vidéo du jeu. Un modèle qui ouvre la voie de l’apprentissage par vidéo (Video PreTraining) à d’autres domaines proches.

 

Après avoir transformé leur IA en artiste, les chercheurs d’OpenAI ont entraîné un réseau neuronal à jouer à Minecraft par Video PreTraining (VPT). Ils ont pour cela rassemblé un ensemble massif de données vidéo non labellisées d’heures de jeu humain. L’équipe de recherche à ensuite récupéré un plus petit jeu de données d’enregistrements vidéo labellisé, réalisé auprès de joueurs qualifiés. Ceci pour apprendre plus finement leur façon de jouer.

 

Ils ont ainsi réussi à collecter et classer les actions effectuées par les joueurs, comme les pressions sur les touches et les mouvements de la souris. À l’aide de ces données, ils ont formé un modèle de dynamique inverse (IDM) qui prédit l’action effectuée à chaque étape de la vidéo.

 

Un modèle qui ouvre la voie de l’apprentissage IA par vidéo (VPT)

 

L’IDM peut utiliser les informations passées et futures pour deviner les actions à chaque étape. Le réseau neuronal a ainsi appris à abattre des arbres de Minecraft afin de collecter des bûches. Puis à transformer ces bûches en planches et ces planches en table. Ou encore fabriquer une pioche en diamant, ce qui nécessite une séquence longue et complexe de sous-tâches. C’est la première fois qu’un agent IA est capable de fabriquer des objects complexes comme une pioche en diamant dans Minecraft. Ce qui prend généralement à un humain compétent dans Minecraft plus de 20 minutes (et 24 000 actions en moyenne) de jeu consécutives.

 

En combinant ces deux approches, l’équipe a entraîné son IDM à étiqueter un ensemble de données beaucoup plus important de vidéos en ligne (70 000 heures de jeu) et à apprendre à agir par clonage comportemental. Leur modèle d’apprentissage par VPT a accompli des tâches qui sont presque impossibles à réaliser via l’apprentissage par renforcement à partir de zéro.

 

OpenAI a choisi de faire cette expérience dans Minecraft car c’est l’un des jeux vidéo les plus joués au monde et qu’il dispose d’une grande quantité de données vidéo en libre accès. C’est également un jeu ouvert avec une diversité importante d’actions à réaliser. Ce qui est en un sens, similaire à certaines actions du  « monde réel », comme l’utilisation d’un ordinateur par exemple.


Posted

in

by

Tags:

Comments

Leave a Reply