Découvrez nos
ressources

Matériel :
- 1 robot minimum
- 1 ordinateur/robot
- Petite arÚne minimum fermée avec obstacles
â
Points forts :
- Démonstration de l'Apprentissage par Renforcement (i.e. par essais et erreurs)
- Liens avec la Métacognition (i.e. les apprentissages des élÚves !)
Durée :
1 heure
Age :
8 ans et +
â
Configuration :
La ressource pdf détaille les étapes de configuration des paramÚtres.
â
Illustration Vidéo
La deuxiÚme partie de la vidéo "à la découverte de Thymio AI" montre l'usage de l'Apprentissage par Renforcement pour permettre à Thymio d'apprendre "tout seul" à éviter les murs à l'intérieur de l'arÚne.
â
â
LâArĂšne
Mise en place du matériel
Disposer d'une arÚne rectangulaire AlphAI faite de murs solidaires ou d'un espace délimité par des objets suffisamment lourds pour que Thymio ne puisse pas les déplacer.
Dimensions minimales : 80cm x 80 cmâ
Apprentissage par renforcement
Mission de Thymio :
âThymio se trouve Ă l'intĂ©rieur d'une arĂšne. Son but est d'explorer cette arĂšne sans toucher les murs. Comme d'habitude, au dĂ©but, Thymio ne sait rien faire.
Nous décidons de lui apprendre à effectuer sa mission avec une nouvelle méthode appelée apprentissage par renforcement. C'est une méthode qui fait aussi partie du domaine de l'intelligence artificielle.
Nous utiliserons à nouveau un réseau de neurones.
Dans cette méthode, on ne dit pas à Thymio quelle action il doit faire, parmi les diverses actions possibles. C'est à lui d'en choisir une. Mais comment le robot peut- il savoir quelle action choisir ? Grùce à des récompenses qu'on lui donnera, ou non1.
â[1] Cela Ă©voque le jeu de devinette, "t'es froid, t'es chaud, tu brĂ»les ! ..."
Réglages AlphAI
Rappel connexion Thymio (haut de page)
âDans le menu paramĂštres, sĂ©lectionner l'option charger des configurations d'exemples ...
Dans le cadre qui apparaĂźt, double cliquer sur l'option Ă©vitement dâobstacles (apprentissage par renforcement).
Au dessous du réseau on remarque deux barres noires de progression.
- La barre de gauche affiche les rĂ©compenses ou pĂ©nalitĂ©s sous forme de nombre. Une rĂ©compense est reprĂ©sentĂ©e par un nombre positif, une valeur nĂ©gative correspond Ă une pĂ©nalitĂ©.Â
Les valeurs possibles pour les récompenses sont déjà fixées par Alphai.
- La barre droite indique le niveau, c'est-à -dire la moyenne des récompenses précédentes. Il correspond à l'état de l'apprentissage de Thymio.
Par ailleurs, on laissera les boutons d'apprentissage et d'exploration activés.
Premier apprentissage
Observer Thymio dans l'arĂšne
Lancer le mode autonome. Thymio se met en mouvement. Son premier dĂ©placement est choisi au hasard. Observer ses mouvements et ses changements de couleur. Cliquer Ă nouveau sur le bouton autonome au bout de 20 secondes environ pour arrĂȘter lâapprentissage.
âQuestion 1:Â
Etablir des liens entre ce que fait le robot et les couleurs qu'il prend. Noter la réponse.
Quand Thymio se déplace en avant dans l'arÚne, il est vert. Quand il s'approche trop prÚs ou qu'il touche un mur, il se colore en rouge.
Vert veut dire : Thymio reçoit une récompense, son action va dans le sens de sa mission.
Rouge veut dire : Thymio reçoit une pénalité, son action est contraire à sa mission.Poursuivre l'apprentissage pendant 5 à 10 minutes.
âQuestion 2:Â
Constatez-vous une évolution dans le comportement de Thymio ? Si oui, la décrire. Noter la réponse.
On observe qu'au début, Thymio heurte assez souvent les murs et peine à s'en dégager. Puis il réussit à l'éviter de plus en plus souvent.
On peut mĂȘme noter plusieurs Ă©tapes dans lâapprentissage :
Au dĂ©but, Thymio a trĂšs vite dĂ©couvert quâil ne fallait pas aller en arriĂšre.
Ensuite il a adoptĂ© trĂšs vite un des deux comportements suivants (les Ă©lĂšves observeront lâun ou lâautre avec leur Thymio) : soit tourner en rond (câest le plus courant), soit faire des lignes droites et se retourner lorsquâil cogne un mur.
Puis il apprend petit Ă petit Ă alterner entre tout droit et virage, choisissant de plus en plus frĂ©quemment tout droit lorsquâil nây a pas dâobstacle devant, virage Ă gauche sâil y a un mur Ă droite, et virage Ă droite sâil y a un mur Ă gauche.
Exploration : cliquez sur le bouton exploration pour le désactiver.
âQuestion 3:
âConstatez-vous une Ă©volution dans le comportement de Thymio ? Si oui, la dĂ©crire. Noter la rĂ©ponse.
Thymio fait moins dâerreur, il nâinterrompt plus ses lignes droites avec des mouvements inopinĂ©s.
RĂ©initialiser l'IA avec le bouton rĂ©initialiser l'IA. Cela fait « oublier » Ă Thymio tout ce quâil a appris, il recommence un apprentissage de zĂ©ro (garder autonome activĂ©, mais exploration dĂ©sactivĂ©).
âQuestion 4:Â
Constatez-vous des différences entre ce nouvel apprentissage et le précédent ? Si oui, les décrire.
Si vous ne constatez pas de diffĂ©rence, recommencer encore un nouvel apprentissage en appuyant sur rĂ©initialiser lâIA. Noter la rĂ©ponse.
Thymio reste bloquĂ© dans le comportement « tourner en rond » sans dĂ©couvrir la ligne droite. (Cela nâest pas systĂ©matique et il lui arrive dâapprendre correctement mĂȘme lorsque lâexploration est dĂ©sactivĂ©e).
âConclusion
âLâexploration est indispensable Ă lâapprentissage.
lâIA essaie de temps en temps des actions autres que celle quâelle « pense » ĂȘtre la meilleure (lorsque cela arrive lâicĂŽne dâaction Ă droite de lâĂ©cran sâallume en bleu plutĂŽt quâen noir). Cela Ă©vite de rester bloquĂ© dans un comportement mĂ©diocre.
En revanche, une fois lâapprentissage terminĂ©, lâexploration nâest plus utile, il est intĂ©ressant de la dĂ©sactiver pour obtenir le comportement le plus parfait possible.
Réseaux de neurones
Observez le comportement du réseau de neurones.
Nous allons observer et noter le comportement en détail sur quelques étapes, au début de l'apprentissage.
1. Réinitialiser l'IA avec le bouton réinitialiser l'IA. Placer Thymio au milieu de l'arÚne. On rappelle que son premier déplacement est choisi au hasard. Pour vous en convaincre vous pouvez cliquer plusieurs fois de suite sur réinitialiser l'IA et autonome.
2. Compléter la premiÚre ligne du tableau. Le petit tiret signifie que les capteurs avant de Thymio ne captent rien car il n'y a rien.
3. Bien regarder Thymio et cliquer sur le bouton pas Ă pas.

Question 5
Quel mouvement Thymio a-t-il fait ? Dans la ligne du tableau que vous venez de remplir, relevez la valeur correspondante à ce mouvement. Comparer ce nombre aux valeurs des autres actions. Que constate- t-on ? Noter la réponse.
Cette valeur est la plus grande. Donc, Thymio effectue le mouvement correspondant Ă la valeur la plus grande.
Question 6
On observe aussi que le robot a reçu une récompense. Cette récompense semble-t-elle en accord avec le but de la mission ? Expliquer.
Réponse possible : Thymio a tourné à gauche, et il a reçu une récompense de +55. C'est normal, car il n'y a rien devant lui et il peut donc tourner. Une fois la premiÚre récompense décernée, les valeurs de sortie sont re-calculées par le réseau de neurones.
Compléter la 2Úme ligne du tableau et devinez alors quel sera le prochain mouvement de Thymio. Faire quelques clics supplémentaires sur le bouton pas à pas en regardant évoluer les récompenses et le niveau.
Récompenses
Observer le comportement du rĂ©seau de neuronesÂ
Nous allons observer et noter le comportement en détail sur quelques étapes, au début de l'apprentissage.
1. Réinitialiser l'IA avec le bouton réinitialiser l'IA. Placer Thymio au milieu de l'arÚne. On rappelle que son premier déplacement est choisi au hasard. Pour vous en convaincre vous pouvez cliquer plusieurs fois de suite sur réinitialiser l'IA et autonome.
2. Compléter la premiÚre ligne du tableau. Le petit tiret signifie que les capteurs avant de Thymio ne captent rien car il n'y a rien.
3. Bien regarder Thymio et cliquer sur le bouton pas Ă pas.

Question 7 :
Comment évolue le niveau quand le robot reçoit une récompense ou au contraire une pénalité ? Que représente le niveau ?
Noter la réponse.
- Si la récompense est positive, le niveau augmente.
- Si la récompense est négative, le niveau diminue.
Le niveau représente la capacité de Thymio à obtenir des récompenses positives. Plus précisément, il est calculé comme la moyenne des récompenses reçues pendant la derniÚre minute écoulée.
à présent, appuyer sur autonome pour laisser Thymio continuer son apprentissage.
â
Question 8 :Â
Comment Ă©volue le niveau au cours de lâapprentissage ?
Pourquoi ? Expliquer :
Le niveau augmente au cours de lâapprentissage. En effet, Thymio reçoit de plus en plus de rĂ©compenses Ă©levĂ©es (en particulier lorsquâil va tout droit) et de moins en moins de punitions (puisquâil se cogne de moins en moins). En fait, le but de lâapprentissage est prĂ©cisĂ©ment de faire augmenter le niveau de Thymio.
â
Pénalités
Si on résume les différentes valeurs apparues dans la barre de progression, on a relevé :
100 : Quand Thymio avance tout droit sans obstacle devant, c'est la valeur la plus élevée.
55 : Quand Thymio tourne sans obstacle devant.
-50 : Thymio effectue une des multiples "mauvaises" actions comme avancer contre un mur, reculer quand il n'y a rien devant ...
â
Nous pouvons modifier la valeur de la pénalité.
â Ouvrir l'onglet rĂ©compense et mettre la pĂ©nalitĂ© Ă une petite valeur, par exemple 0 : rĂ©initialiser l'IA et relancer l'apprentissage pendant quelques minutes.
Observer le comportement de Thymio, est-il plus audacieux, plus prudent ?
Tape-t-il plus ou moins souvent les murs ?
â Mettre une plus grande pĂ©nalitĂ©, 1,5 par exemple. RĂ©initialiser Ă nouveau l'IA et relancer l'apprentissage pendant quelques minutes. MĂȘme question que prĂ©cĂ©demment.
â
Question 9:Â
Résumez comment le comportement de Thymio évolue quand on modifie la valeur de la pénalité. Notez la réponse.
Si la pénalité est faible, Thymio tape souvent les murs mais devient plus audacieux et parcourt pleinement les lieux.
Si la pénalité est forte, Thymio tape moins souvent les murs mais devient plus prudent et reste dans une zone restreinte.