Découvrez nos
ressources

đŸš© ActivitĂ© : L'ArĂšne

Matériel :

  • 1 robot minimum
  • 1 ordinateur/robot
  • Petite arĂšne minimum fermĂ©e avec obstacles

‍

Points forts :

  • DĂ©monstration de l'Apprentissage par Renforcement (i.e. par essais et erreurs)
  • Liens avec la MĂ©tacognition (i.e. les apprentissages des Ă©lĂšves !)

Durée :

1 heure

Age :

8 ans et +

‍

Configuration :

La ressource pdf détaille les étapes de configuration des paramÚtres.

‍

Illustration Vidéo

La deuxiĂšme partie de la vidĂ©o "À la dĂ©couverte de Thymio AI" montre l'usage de l'Apprentissage par Renforcement pour permettre Ă  Thymio d'apprendre "tout seul" Ă  Ă©viter les murs Ă  l'intĂ©rieur de l'arĂšne.

‍

‍

L’Arùne

Mise en place du matériel

Disposer d'une arÚne rectangulaire AlphAI faite de murs solidaires ou d'un espace délimité par des objets suffisamment lourds pour que Thymio ne puisse pas les déplacer.

Dimensions minimales : 80cm x 80 cm‍

Apprentissage par renforcement

Mission de Thymio :

‍Thymio se trouve Ă  l'intĂ©rieur d'une arĂšne. Son but est d'explorer cette arĂšne sans toucher les murs. Comme d'habitude, au dĂ©but, Thymio ne sait rien faire.

Nous décidons de lui apprendre à effectuer sa mission avec une nouvelle méthode appelée apprentissage par renforcement. C'est une méthode qui fait aussi partie du domaine de l'intelligence artificielle.

Nous utiliserons à nouveau un réseau de neurones.

Dans cette méthode, on ne dit pas à Thymio quelle action il doit faire, parmi les diverses actions possibles. C'est à lui d'en choisir une. Mais comment le robot peut- il savoir quelle action choisir ? Grùce à des récompenses qu'on lui donnera, ou non1.

‍[1] Cela Ă©voque le jeu de devinette, "t'es froid, t'es chaud, tu brĂ»les ! ..."

Réglages AlphAI

Rappel connexion Thymio (haut de page)

‍Dans le menu paramĂštres, sĂ©lectionner l'option charger des configurations d'exemples ...

Dans le cadre qui apparaĂźt, double cliquer sur l'option Ă©vitement d’obstacles (apprentissage par renforcement).

Au dessous du réseau on remarque deux barres noires de progression.

  • La barre de gauche affiche les rĂ©compenses ou pĂ©nalitĂ©s sous forme de nombre. Une rĂ©compense est reprĂ©sentĂ©e par un nombre positif, une valeur nĂ©gative correspond Ă  une pĂ©nalitĂ©. 
    Les valeurs possibles pour les récompenses sont déjà fixées par Alphai.
  • La barre droite indique le niveau, c'est-Ă -dire la moyenne des rĂ©compenses prĂ©cĂ©dentes. Il correspond Ă  l'Ă©tat de l'apprentissage de Thymio.

Par ailleurs, on laissera les boutons d'apprentissage et d'exploration activés.

Premier apprentissage

Observer Thymio dans l'arĂšne

Lancer le mode autonome. Thymio se met en mouvement. Son premier dĂ©placement est choisi au hasard. Observer ses mouvements et ses changements de couleur. Cliquer Ă  nouveau sur le bouton autonome au bout de 20 secondes environ pour arrĂȘter  l’apprentissage.

‍Question 1: 

Etablir des liens entre ce que fait le robot et les couleurs qu'il prend. Noter la réponse.

Quand Thymio se déplace en avant dans l'arÚne, il est vert. Quand il s'approche trop prÚs ou qu'il touche un mur, il se colore en rouge.

Vert veut dire : Thymio reçoit une récompense, son action va dans le sens de sa mission.

Rouge veut dire : Thymio reçoit une pénalité, son action est contraire à sa mission.Poursuivre l'apprentissage pendant 5 à 10 minutes.

‍Question 2: 

Constatez-vous une évolution dans le comportement de Thymio ? Si oui, la décrire. Noter la réponse.

On observe qu'au début, Thymio heurte assez souvent les murs et peine à s'en dégager. Puis il réussit à l'éviter de plus en plus souvent.

On peut mĂȘme noter plusieurs Ă©tapes dans l’apprentissage :

Au dĂ©but, Thymio a trĂšs vite dĂ©couvert qu’il ne fallait pas aller en arriĂšre.

Ensuite il a adoptĂ© trĂšs vite un des deux comportements suivants (les Ă©lĂšves observeront l’un ou l’autre avec leur Thymio) : soit tourner en rond (c’est le plus courant), soit faire des lignes droites et se retourner lorsqu’il cogne un mur.

Puis il apprend petit Ă  petit Ă  alterner entre tout droit et virage, choisissant de plus en plus frĂ©quemment tout droit lorsqu’il n’y a pas d’obstacle devant, virage Ă  gauche s’il y a un mur Ă  droite, et virage Ă  droite s’il y a un mur Ă  gauche.

Exploration : cliquez sur le bouton exploration pour le désactiver.

‍Question 3:

‍Constatez-vous une Ă©volution dans le comportement de Thymio ? Si oui, la dĂ©crire. Noter la rĂ©ponse.

Thymio fait moins d’erreur, il n’interrompt plus ses lignes droites avec des mouvements inopinĂ©s.

RĂ©initialiser l'IA avec le bouton rĂ©initialiser l'IA. Cela fait « oublier » Ă  Thymio tout ce qu’il a appris, il recommence un apprentissage de zĂ©ro (garder autonome activĂ©, mais exploration dĂ©sactivĂ©).

‍Question 4: 

Constatez-vous des différences entre ce nouvel apprentissage et le précédent ? Si oui, les décrire.

Si vous ne constatez pas de diffĂ©rence, recommencer encore un nouvel  apprentissage en appuyant sur rĂ©initialiser l’IA. Noter la rĂ©ponse.

Thymio reste bloquĂ© dans le comportement « tourner en rond » sans dĂ©couvrir la ligne droite. (Cela n’est pas systĂ©matique et il lui arrive d’apprendre correctement mĂȘme lorsque l’exploration est dĂ©sactivĂ©e).

‍Conclusion

‍L’exploration est indispensable à l’apprentissage.

l’IA essaie de temps en temps des actions autres que celle qu’elle « pense » ĂȘtre la meilleure (lorsque cela arrive l’icĂŽne d’action Ă  droite de l’écran s’allume en bleu plutĂŽt qu’en noir). Cela Ă©vite de rester bloquĂ© dans un comportement mĂ©diocre.

En revanche, une fois l’apprentissage terminĂ©, l’exploration n’est plus utile, il est intĂ©ressant de la dĂ©sactiver pour obtenir le comportement le plus parfait possible.

Réseaux de neurones

Observez le comportement du réseau de neurones.

Nous allons observer et noter le comportement en détail sur quelques étapes, au début de l'apprentissage.

1. Réinitialiser l'IA avec le bouton réinitialiser l'IA. Placer Thymio au milieu de l'arÚne. On rappelle que son premier déplacement est choisi au hasard. Pour vous en convaincre vous pouvez cliquer plusieurs fois de suite sur réinitialiser l'IA et autonome.

2. Compléter la premiÚre ligne du tableau. Le petit tiret signifie que les capteurs avant de Thymio ne captent rien car il n'y a rien.

3. Bien regarder Thymio et cliquer sur le bouton pas Ă  pas.

Question 5

Quel mouvement Thymio a-t-il fait ? Dans la ligne du tableau que vous venez de remplir, relevez la valeur correspondante à ce mouvement. Comparer ce nombre aux valeurs des autres actions. Que constate- t-on ? Noter la réponse.

Cette valeur est la plus grande. Donc, Thymio effectue le mouvement correspondant Ă  la valeur la plus grande.

Question 6

On observe aussi que le robot a reçu une récompense. Cette récompense semble-t-elle en accord avec le but de la mission ? Expliquer.

Réponse possible : Thymio a tourné à gauche, et il a reçu une récompense de +55. C'est normal, car il n'y a rien devant lui et il peut donc tourner. Une fois la premiÚre récompense décernée, les valeurs de sortie sont re-calculées par le réseau de neurones.

Compléter la 2Úme ligne du tableau et devinez alors quel sera le prochain mouvement de Thymio. Faire quelques clics supplémentaires sur le bouton pas à pas en regardant évoluer les récompenses et le niveau.

Récompenses

Observer le comportement du réseau de neurones 

Nous allons observer et noter le comportement en détail sur quelques étapes, au début de l'apprentissage.

1. Réinitialiser l'IA avec le bouton réinitialiser l'IA. Placer Thymio au milieu de l'arÚne. On rappelle que son premier déplacement est choisi au hasard. Pour vous en convaincre vous pouvez cliquer plusieurs fois de suite sur réinitialiser l'IA et autonome.

2. Compléter la premiÚre ligne du tableau. Le petit tiret signifie que les capteurs avant de Thymio ne captent rien car il n'y a rien.

3. Bien regarder Thymio et cliquer sur le bouton pas Ă  pas.

Question 7 :

Comment évolue le niveau quand le robot reçoit une récompense ou au contraire une pénalité ? Que représente le niveau ?

Noter la réponse.

  • Si la rĂ©compense est positive, le niveau augmente.
  • Si la rĂ©compense est nĂ©gative, le niveau diminue.

Le niveau représente la capacité de Thymio à obtenir des récompenses positives. Plus précisément, il est calculé comme la moyenne des récompenses reçues pendant la derniÚre minute écoulée.

À prĂ©sent, appuyer sur autonome pour laisser Thymio continuer son apprentissage.

‍

Question 8 : 

Comment Ă©volue le niveau au cours de l’apprentissage ?

Pourquoi ? Expliquer :

Le niveau augmente au cours de l’apprentissage. En effet, Thymio reçoit de plus en plus de rĂ©compenses Ă©levĂ©es (en particulier lorsqu’il va tout droit) et de moins en moins de punitions (puisqu’il se cogne de moins en moins). En fait, le but de l’apprentissage est prĂ©cisĂ©ment de faire augmenter le niveau de Thymio.

‍

Pénalités

Si on résume les différentes valeurs apparues dans la barre de progression, on a relevé :

100 : Quand Thymio avance tout droit sans obstacle devant, c'est la valeur la plus élevée.

55 : Quand Thymio tourne sans obstacle devant.

-50 : Thymio effectue une des multiples "mauvaises" actions comme avancer contre un mur, reculer quand il n'y a rien devant ...

‍

Nous pouvons modifier la valeur de la pénalité.

● Ouvrir l'onglet rĂ©compense et mettre la pĂ©nalitĂ© Ă  une petite valeur, par exemple 0 : rĂ©initialiser l'IA et relancer l'apprentissage pendant quelques minutes.

Observer le comportement de Thymio, est-il plus audacieux, plus prudent ?

Tape-t-il plus ou moins souvent les murs ?

● Mettre une plus grande pĂ©nalitĂ©, 1,5 par exemple. RĂ©initialiser Ă  nouveau l'IA et relancer l'apprentissage pendant quelques minutes. MĂȘme question que prĂ©cĂ©demment.

‍

Question 9: 

Résumez comment le comportement de Thymio évolue quand on modifie la valeur de la pénalité. Notez la réponse.

Si la pénalité est faible, Thymio tape souvent les murs mais devient plus audacieux et parcourt pleinement les lieux.

Si la pénalité est forte, Thymio tape moins souvent les murs mais devient plus prudent et reste dans une zone restreinte.