Activité : Bloqué VS Mouvement

Matériel nécessaire :

1 robot minimum
1 ordinateur/robot
Arène individuelle

‍

Configuration logiciel :

configuration d'exemple : “Bloqué VS Mouvement” en mode édition manuelle, puis en mode “apprentissage par renforcement”

Durée :

90 minutes

Age :

15 ans et +

‍

Les + de cette activité :

Comprendre l’algorithme Q-learning
Pluridisciplinaire (maths/informatique)
Peut être réalisée avec le simulateur

‍

L’objectif de cette activité est de comprendre le fonctionnement de l’algorithme du Q-learning.

‍

Le Q-learning est un algorithme d’apprentissage par renforcement. Le robot va donc apprendre par essais et erreurs, sur la base de récompenses qui sont déterminées par l’utilisateur (comme dans le scénario “Évitement d’obstacles”).

Grâce à cette méthode, nous allons entraîner un robot AlphAI à se déplacer dans une arène sans rester bloqué contre les parois. Cette tâche simple nous permettra de bien comprendre les mécanismes qui interviennent au niveau du réseau de neurones.

‍

[Contenu vidéo à venir]

‍

Mise en place

Placez le robot dans une petite arène sans obstacle.

‍

Récompense et édition manuelle

Dans une première partie, on découvre le principe des récompenses, et on utilise le mode “édition manuelle” pour trouver le comportement du robot qui maximise les récompenses reçues.

Apprentissage par renforcement

Dans une seconde partie, on observe l’apprentissage du robot pas à pas et l’évolution des poids des connexions dans le réseau. On découvre l’importance de l’exploration dans l’apprentissage.

Q-learning

Ensuite, il s’agit de découvrir l’algorithme du Q-learning à proprement parler. Il consiste principalement en une formule de mise à jour des poids des connexions après chaque essai du robot. Cette formule fait intervenir deux paramètres dont l’utilité est discutée.

On découvre l’impact de la temporalité sur l’apprentissage : il faut apprendre suffisamment vite sans "sauter sur une conclusion". L’algorithme doit également être capable de prendre en compte les récompenses futures et pas seulement la récompense immédiate : il doit développer une vision à plus long terme.

Deep Q-learning

Le deep Q-learning est une évolution de l’algorithme du Q-learning pour l’appliquer à des réseaux de neurones plus complexes (multi-couches). C’est cet algorithme qui est par exemple utilisé dans le scénario “Évitement d’obstacles”.

À télécharger

Cursus liés

Votre panier

Découvrez nos
ressources

Mise en place

Récompense et édition manuelle

Apprentissage par renforcement

Q-learning

Deep Q-learning