Entdecken Sie unsere Lehrmaterialien

Material :
- 1 Roboter mindestens
- 1 Computer/Roboter
- Kleine, mindestens umzÀunte Arena mit Hindernissen
â
StÀrken:
- Demonstration des Lernens durch VerstÀrkung (d. h. durch Versuch und Irrtum)
- Verbindungen zur Metakognition (d. h. zum Lernen der SchĂŒler!)
Dauer :
1 Stunde
Alter :
8 Jahre und Àlter
â
Konfiguration:
Die PDF-Datei enthÀlt detaillierte Informationen zu den einzelnen Schritten der Konfiguration der Parameter.
â
Illustration Video
Der zweite Teil des Videos âEntdecken Sie Thymio AIâ zeigt, wie Thymio mithilfe von Reinforcement Learning âselbststĂ€ndigâ lernt, WĂ€nde innerhalb der Arena zu umgehen.
â
â
Die Arena
Einrichten des Materials
Eine rechteckige AlphAI-Arena aus festen WÀnden oder einen Bereich, der durch ausreichend schwere GegenstÀnde begrenzt ist, sodass Thymio diese nicht verschieben kann.
Mindestabmessungen: 80 cm x 80cmâ
Lernen durch VerstÀrkung
Thymios Mission:
Thymiobefindet sich in einer Arena. Sein Ziel ist es, diese Arena zu erkunden, ohne die WĂ€nde zu berĂŒhren. Wie ĂŒblich kann Thymio zu Beginn noch nichts.
Wir beschlieĂen, ihm beizubringen, seine Aufgabe mit einer neuen Methode namens âVerstĂ€rkungslernenâ auszufĂŒhren. Diese Methode gehört ebenfalls zum Bereich der kĂŒnstlichen Intelligenz.
Wir werden erneut ein neuronales Netzwerk verwenden.
Bei dieser Methode wird Thymio nicht gesagt, welche der verschiedenen möglichen Aktionen er ausfĂŒhren soll. Er muss selbst eine auswĂ€hlen. Aber wie kann der Roboter wissen, welche Aktion er wĂ€hlen soll? Durch Belohnungen, die er erhĂ€lt oder auchnicht1.
â[1] Das erinnert an das Ratespiel âDu bist kalt, du bist warm, du brennst! ...â
AlphAI-Einstellungen
Erinnerung zur Thymio-Verbindung (oben auf der Seite)
WĂ€hlen Sie imMenĂŒ âEinstellungenâ die Option âBeispielkonfigurationen laden ...â aus.
Doppelklicken Sie im angezeigten Fenster auf die Option âHindernisvermeidung (Lernen durch VerstĂ€rkung)â.
Unterhalb des Netzwerks sind zwei schwarze Fortschrittsbalken zu sehen.
- Die linke Leiste zeigt die Belohnungen oder Strafen in Form von Zahlen an. Eine Belohnung wird durch eine positive Zahl dargestellt, ein negativer Wert entspricht einer Strafe.
Die möglichen Werte fĂŒr Belohnungen sind bereits von Alphai festgelegt.
- Der rechte Balken zeigt das Niveau an, d. h. den Durchschnitt der bisherigen Belohnungen. Er entspricht dem Lernstand von Thymio.
AuĂerdem bleiben die Tasten âLernenâ und âErkundenâ aktiviert.
Erste Ausbildung
Beobachten Sie Thymio in der Arena
Starten Sie den autonomen Modus. Thymio setzt sich in Bewegung. Seine erste Bewegung wird zufĂ€llig ausgewĂ€hlt. Beobachten Sie seine Bewegungen und Farbwechsel. Klicken Sie nach etwa 20 Sekunden erneut auf die SchaltflĂ€che âAutonomâ, um den Lernvorgang zu beenden .
Frage 1:Â
Stellen Sie Verbindungen zwischen den Aktionen des Roboters und den Farben her, die er annimmt. Notieren Sie die Antwort.
Wenn sich Thymio in der Arena vorwĂ€rts bewegt, ist er grĂŒn. Wenn er sich zu nahe nĂ€hert oder eine Wand berĂŒhrt, fĂ€rbt er sich rot.
GrĂŒn bedeutet: Thymio erhĂ€lt eine Belohnung, seine Handlung entspricht seiner Mission.
Rot bedeutet: Thymio erhÀlt eine Strafe, seine Handlung widerspricht seiner Mission. Setzen Sie das Training 5 bis 10 Minuten lang fort.
Frage 2:Â
Stellen Sie eine VerÀnderung im Verhalten von Thymio fest? Wenn ja, beschreiben Sie diese. Notieren Sie die Antwort.
Man beobachtet, dass Thymio anfangs ziemlich oft gegen WĂ€nde stöĂt und Schwierigkeiten hat, sich davon zu lösen. Dann gelingt es ihm immer öfter, dies zu vermeiden.
Man kann sogar mehrere Lernphasen unterscheiden:
Am Anfang lernte Thymio sehr schnell, dass er nicht rĂŒckwĂ€rts fahren sollte.
AnschlieĂend nahm er sehr schnell eine der beiden folgenden Verhaltensweisen an (die SchĂŒler werden das eine oder andere mit ihrem Thymio beobachten): Entweder dreht er sich im Kreis (das ist am hĂ€ufigsten der Fall) oder er fĂ€hrt geradeaus und dreht sich um, wenn er gegen eine Wand stöĂt.
Dann lernt er nach und nach, zwischen Geradeausfahren und Kurvenfahren zu wechseln, wobei er sich immer hĂ€ufiger fĂŒr Geradeausfahren entscheidet, wenn kein Hindernis vor ihm ist, fĂŒr Linkskurven, wenn rechts eine Mauer ist, und fĂŒr Rechtskurven, wenn links eine Mauer ist.
Erkundung: Klicken Sie auf die SchaltflĂ€che âErkundungâ, um sie zu deaktivieren.
Frage 3:
Stellen Sieeine VerÀnderung im Verhalten von Thymio fest? Wenn ja, beschreiben Sie diese. Notieren Sie die Antwort.
Thymio macht weniger Fehler, er unterbricht seine geraden Linien nicht mehr mit unerwarteten Bewegungen.
Setzen Sie die KI mit der SchaltflĂ€che âKI zurĂŒcksetzenâ zurĂŒck. Dadurch âvergisstâ Thymio alles, was er gelernt hat, und beginnt von vorne zu lernen (Autonomie aktiviert lassen, aber Erkundung deaktivieren).
Frage 4:Â
Stellen Sie Unterschiede zwischen dieser neuen Ausbildung und der vorherigen fest? Wenn ja, beschreiben Sie diese bitte.
Wenn Sie keinen Unterschied feststellen, starten Sie den Lernvorgang erneut , indem Sie auf âKI zurĂŒcksetzenâ drĂŒcken. Notieren Sie sich die Antwort.
Thymio bleibt im Verhalten âIm Kreis drehenâ stecken, ohne die gerade Linie zu entdecken. (Dies ist nicht systematisch und manchmal lernt er auch dann richtig, wenn die Erkundung deaktiviert ist).
âFazit
Erkundungist fĂŒr das Lernen unerlĂ€sslich.
Die KI probiert von Zeit zu Zeit andere Aktionen aus als die, die sie fĂŒr die beste hĂ€lt (in diesem Fall leuchtet das Aktionssymbol auf der rechten Seite des Bildschirms blau statt schwarz). Dadurch wird vermieden, dass man in einem mittelmĂ€Ăigen Verhalten stecken bleibt.
Sobald der Lernprozess abgeschlossen ist, ist die Erkundung jedoch nicht mehr sinnvoll. Es ist daher ratsam, sie zu deaktivieren, um ein möglichst perfektes Verhalten zu erzielen.
Neuronale Netze
Beobachten Sie das Verhalten des neuronalen Netzes.
Wir werden das Verhalten zu Beginn des Lernprozesses in einigen Schritten genau beobachten und notieren.
1. Setzen Sie die KI mit der SchaltflĂ€che âKI zurĂŒcksetzenâ zurĂŒck. Stellen Sie Thymio in die Mitte der Arena. Denken Sie daran, dass seine erste Bewegung zufĂ€llig ausgewĂ€hlt wird. Um sich davon zu ĂŒberzeugen, können Sie mehrmals hintereinander auf âKI zurĂŒcksetzenâ und âAutonomâ klicken.
2. VervollstÀndigen Sie die erste Zeile der Tabelle. Der kleine Strich bedeutet, dass die vorderen Sensoren von Thymio nichts erfassen, da dort nichts ist.
3. Schauen Sie sich Thymio genau an und klicken Sie auf die SchaltflĂ€che âSchritt fĂŒr Schrittâ.

Frage 5
Welche Bewegung hat Thymio ausgefĂŒhrt? Notieren Sie in der Zeile der Tabelle, die Sie gerade ausgefĂŒllt haben, den Wert, der dieser Bewegung entspricht. Vergleichen Sie diese Zahl mit den Werten der anderen Aktionen. Was lĂ€sst sich feststellen? Notieren Sie die Antwort.
Dieser Wert ist der gröĂte. Daher fĂŒhrt Thymio die Bewegung aus, die dem gröĂten Wert entspricht.
Frage 6
Es ist auch zu beobachten, dass der Roboter eine Belohnung erhalten hat. Entspricht diese Belohnung dem Ziel der Mission? ErlÀutern Sie Ihre Antwort.
Mögliche Antwort: Thymio hat nach links abgebogen und eine Belohnung von +55 erhalten. Das ist normal, da sich vor ihm nichts befindet und er daher abbiegen kann. Nach der Vergabe der ersten Belohnung werden die Ausgangswerte vom neuronalen Netzwerk neu berechnet.
VervollstĂ€ndigen Sie die zweite Zeile der Tabelle und raten Sie dann, wie sich Thymio als NĂ€chstes bewegen wird. Klicken Sie noch ein paar Mal auf die SchaltflĂ€che âSchritt fĂŒr Schrittâ und beobachten Sie, wie sich die Belohnungen und das Level entwickeln.
Auszeichnungen
Das Verhalten des neuronalen Netzes beobachtenÂ
Wir werden das Verhalten zu Beginn des Lernprozesses in einigen Schritten genau beobachten und notieren.
1. Setzen Sie die KI mit der SchaltflĂ€che âKI zurĂŒcksetzenâ zurĂŒck. Stellen Sie Thymio in die Mitte der Arena. Denken Sie daran, dass seine erste Bewegung zufĂ€llig ausgewĂ€hlt wird. Um sich davon zu ĂŒberzeugen, können Sie mehrmals hintereinander auf âKI zurĂŒcksetzenâ und âAutonomâ klicken.
2. VervollstÀndigen Sie die erste Zeile der Tabelle. Der kleine Strich bedeutet, dass die vorderen Sensoren von Thymio nichts erfassen, da dort nichts ist.
3. Schauen Sie sich Thymio genau an und klicken Sie auf die SchaltflĂ€che âSchritt fĂŒr Schrittâ.

Frage 7:
Wie entwickelt sich das Level, wenn der Roboter eine Belohnung oder im Gegenteil eine Strafe erhÀlt? Was stellt das Level dar?
Die Antwort notieren.
- Wenn die Belohnung positiv ist, steigt das Level.
- Ist die Belohnung negativ, sinkt das Level.
Der Level steht fĂŒr Thymios FĂ€higkeit, positive Belohnungen zu erhalten. Genauer gesagt wird er als Durchschnitt der in der letzten Minute erhaltenen Belohnungen berechnet.
DrĂŒcken Sie nun auf âAutonomâ, damit Thymio weiter lernen kann.
â
Frage 8:Â
Wie entwickelt sich das Niveau wÀhrend der Ausbildung?
Warum? ErklÀren Sie:
Das Niveau steigt im Laufe des Lernprozesses. Thymio erhĂ€lt nĂ€mlich immer mehr hohe Belohnungen (insbesondere wenn er geradeaus fĂ€hrt) und immer weniger Strafen (da er immer seltener irgendwo anstöĂt). Das Ziel des Lernprozesses besteht nĂ€mlich genau darin, das Niveau von Thymio zu steigern.
â
Strafen
Wenn man die verschiedenen Werte zusammenfasst, die in der Fortschrittsleiste angezeigt werden, hat man Folgendes festgestellt:
100: Wenn Thymio ohne Hindernisse vor ihm geradeaus fÀhrt, ist dies der höchste Wert.
55: Wenn Thymio ohne Hindernisse vorwÀrts fÀhrt.
-50: Thymio fĂŒhrt eine der vielen âfalschenâ Aktionen aus, wie z. B. gegen eine Wand fahren, zurĂŒckfahren, obwohl nichts vor ihm ist ...
â
Wir können den Wert der Strafe Àndern.
â Ăffnen Sie die Registerkarte âBelohnungâ und setzen Sie die Strafe auf einen kleinen Wert, beispielsweise 0: Setzen Sie die KI zurĂŒck und starten Sie den Lernvorgang fĂŒr einige Minuten neu.
Beobachten Sie das Verhalten von Thymio: Ist er eher wagemutig oder eher vorsichtig?
SchlÀgt er mehr oder weniger oft gegen die WÀnde?
â Eine höhere Strafe festlegen, beispielsweise 1,5. Die KI erneut zurĂŒcksetzen und den Lernvorgang fĂŒr einige Minuten wiederholen. Gleiche Frage wie zuvor.
â
Frage 9:Â
Fassen Sie zusammen, wie sich das Verhalten von Thymio verÀndert, wenn der Wert der Strafe geÀndert wird. Notieren Sie die Antwort.
Wenn die Strafe gering ist, stöĂt Thymio zwar hĂ€ufig gegen WĂ€nde, wird jedoch mutiger und erkundet den gesamten Raum.
Wenn die Strafe hart ist, stöĂt Thymio weniger oft gegen die WĂ€nde, wird aber vorsichtiger und bleibt in einem begrenzten Bereich.