Découvrez nos
ressources
Matériel :
- 1 robot minimum
- 1 ordinateur/robot
- Environnement plat
Paramétrage :
- Apprentissage supervisé - Évitement d’obstacles (complexe)
Durée : 1h30 (2*45 min)
Age : 8 ans et +
Recommandé pour découvrir en manipulant
Apprenez à votre robot à réagir en fonction de situations précises !
Cette activité vous permettra d’apprendre comment paramétrer le logiciel AlphAI et son réseau de neurones pour faire fonctionner mBot dans un environnement simple.
Matériel
Pour la réalisation de cette activité vous aurez besoin d’assembler une petite arène carrée :
Nous vous recommandons d’utiliser notre arène individuelle disponible sur notre site ou chez nos distributeurs.
Vous pouvez également créer votre propre arène. Il faut pour cela une surface plane et propre (par exemple une table), entourée de barrières de couleur différente du sol, et assez solides pour arrêter le robot.

Configuration
La configuration du logiciel peut se faire manuellement ou automatiquement.Pour le configurer automatiquement :Paramètres > Charger les paramètres d’exemple > Apprentissage par renforcement– Évitement d’obstaclesLa configuration peut également se faire manuellement en suivant les indications ci-contre.
- Capteurs > Ultrason, Détection de mouvement, dernière action effectuée



- Actions > Avancer, Tourner, Reculer en tournant

- Récompense > “Évitement d’obstacle”

- IA > Type d’apprentissage”Apprentissage par renforcement”, Algorithme« deep Q-Learning »,Couches de neurones intermédiaires : 300 100 50.


- Visualisation > Sélectionnez : « réseau de neurones», « connexions », « activité synaptique »

Concept
Pour cette activité, il n’y a pas de phase d’entraînement.
En apprentissage par renforcement, le robot apprend de lui-même par essai/erreur. La simple pression sur le bouton Autonome suffit à commencer l’activité et laisser le robot s’entraîner tout seul.

Une fois le bouton actionné il ne reste plus qu’à observer le robot et le laisser s’entraîner tout seul.
Vous pouvez également constater que le réseau de neurones est beaucoup plus imposant et dispose de plusieurs couches intermédiaires. L’IA par renforcement est une IA beaucoup plus complexe qui fait beaucoup plus de calculs que celle utilisée pour l’apprentissage supervisé.
L’enjeu de cette activité est de comprendre :
- Comment le robot prend une décision.
- Comment sa décision évolue au fil de son entraînement.
- Comment le robot évite les obstacles et se déplace dans l’arène sans toucher les murs.
- Comprendre les systèmes de récompenses
La grosse différence entre l’apprentissage supervisé et l’apprentissage par renforcement réside dans le système de récompense. Comme vous pouvez le constater, il y a désormais ces deux blocs « Récompense » et « Niveau » en bas de l’écran. Mais à quoi correspondent-elles ?

Chaque action est attribuée une récompense comprise entre -100 et 100. Le niveau lui correspond à la moyenne de toutes les récompenses.
Avancer = +100
Tourner à droite/gauche = +55
Reculer en tournant = -50
Lorsque les roues se bloquent le robot prend une récompense de -50
Au même titre que nous les humains, le robot aime recevoir des récompenses positives et n’aime pas les récompenses négatives.
Le robot va donc essayer les différentes actions qu’il peut faire, et ce de manière totalement aléatoire au début, puis va vite comprendre que certaines actions lui apportent de meilleures récompenses par rapport à d’autres et il va chercher à les maximiser puis les optimiser. Le niveau représente la moyenne de toutes les récompenses accumulées, il donne une bonne indication du niveau général du robot, c’est-à-dire de sa capacité à se déplacer dans l’arène en évitant les murs. En simulant un grand nombre d'essais, le niveau atteint son pic à environ 80-90. A ce niveau le robot ne reçoit quasiment plus du tout de récompense négative et la moyenne ne fait qu’augmenter à mesure du temps.

Le tout lorsque l’on programme une intelligence artificielle par renforcement est d’appliquer les plus grosses récompenses aux actions que l’on veut qu’il maîtrise.
Par exemple pour une intelligence à qui on voudrait qu’elle apprenne à se garer à une place de parking précise, on la programmait en appliquant une récompense de plus en plus positive à mesure qu’elle se rapproche de la place en question, et de plus en plus négative à mesure qu’elle s’éloigne.
Le système de récompense est la méthode d’apprentissage qui se rapproche le plus de la nôtre. En effet, notre manière d’enseigner fonctionne également avec un système de récompense, pour aider les étudiants à apprendre on a inventé le système de note ; on récompense les élèves qui ont bien appris leur leçon et on punit les autres.