Découvrez nos
ressources
Matériel nécessaire :
- 1 robot minimum
- 1 ordinateur/robot
- Arène individuelle
Configuration logiciel :
- configuration d'exemple : “Bloqué VS Mouvement” en mode édition manuelle, puis en mode “apprentissage par renforcement”
Durée :
90 minutes
Age :
15 ans et +
Les + de cette activité :
- Comprendre l’algorithme Q-learning
- Pluridisciplinaire (maths/informatique)
- Peut être réalisée avec le simulateur
L’objectif de cette activité est de comprendre le fonctionnement de l’algorithme du Q-learning.
Le Q-learning est un algorithme d’apprentissage par renforcement. Le robot va donc apprendre par essais et erreurs, sur la base de récompenses qui sont déterminées par l’utilisateur (comme dans le scénario “Évitement d’obstacles”).
Grâce à cette méthode, nous allons entraîner un robot AlphAI à se déplacer dans une arène sans rester bloqué contre les parois. Cette tâche simple nous permettra de bien comprendre les mécanismes qui interviennent au niveau du réseau de neurones.
[Contenu vidéo à venir]
Mise en place
Placez le robot dans une petite arène sans obstacle.
Récompense et édition manuelle
Dans une première partie, on découvre le principe des récompenses, et on utilise le mode “édition manuelle” pour trouver le comportement du robot qui maximise les récompenses reçues.
Apprentissage par renforcement
Dans une seconde partie, on observe l’apprentissage du robot pas à pas et l’évolution des poids des connexions dans le réseau. On découvre l’importance de l’exploration dans l’apprentissage.
Q-learning
Ensuite, il s’agit de découvrir l’algorithme du Q-learning à proprement parler. Il consiste principalement en une formule de mise à jour des poids des connexions après chaque essai du robot. Cette formule fait intervenir deux paramètres dont l’utilité est discutée.
On découvre l’impact de la temporalité sur l’apprentissage : il faut apprendre suffisamment vite sans "sauter sur une conclusion". L’algorithme doit également être capable de prendre en compte les récompenses futures et pas seulement la récompense immédiate : il doit développer une vision à plus long terme.
Deep Q-learning
Le deep Q-learning est une évolution de l’algorithme du Q-learning pour l’appliquer à des réseaux de neurones plus complexes (multi-couches). C’est cet algorithme qui est par exemple utilisé dans le scénario “Évitement d’obstacles”.