Entdecken Sie unsere Lehrmaterialien

đŸš© AktivitĂ€t: Die Arena

Material :

  • 1 Roboter mindestens
  • 1 Computer/Roboter
  • Kleine, mindestens umzĂ€unte Arena mit Hindernissen

‍

StÀrken:

  • Demonstration des Lernens durch VerstĂ€rkung (d. h. durch Versuch und Irrtum)
  • Verbindungen zur Metakognition (d. h. zum Lernen der SchĂŒler!)

Dauer :

1 Stunde

Alter :

8 Jahre und Àlter

‍

Konfiguration:

Die PDF-Datei enthÀlt detaillierte Informationen zu den einzelnen Schritten der Konfiguration der Parameter.

‍

Illustration Video

Der zweite Teil des Videos „Entdecken Sie Thymio AI” zeigt, wie Thymio mithilfe von Reinforcement Learning „selbststĂ€ndig” lernt, WĂ€nde innerhalb der Arena zu umgehen.

‍

‍

Die Arena

Einrichten des Materials

Eine rechteckige AlphAI-Arena aus festen WÀnden oder einen Bereich, der durch ausreichend schwere GegenstÀnde begrenzt ist, sodass Thymio diese nicht verschieben kann.

Mindestabmessungen: 80 cm x 80cm‍

Lernen durch VerstÀrkung

Thymios Mission:

Thymiobefindet sich in einer Arena. Sein Ziel ist es, diese Arena zu erkunden, ohne die WĂ€nde zu berĂŒhren. Wie ĂŒblich kann Thymio zu Beginn noch nichts.

Wir beschließen, ihm beizubringen, seine Aufgabe mit einer neuen Methode namens „VerstĂ€rkungslernen” auszufĂŒhren. Diese Methode gehört ebenfalls zum Bereich der kĂŒnstlichen Intelligenz.

Wir werden erneut ein neuronales Netzwerk verwenden.

Bei dieser Methode wird Thymio nicht gesagt, welche der verschiedenen möglichen Aktionen er ausfĂŒhren soll. Er muss selbst eine auswĂ€hlen. Aber wie kann der Roboter wissen, welche Aktion er wĂ€hlen soll? Durch Belohnungen, die er erhĂ€lt oder auchnicht1.

‍[1] Das erinnert an das Ratespiel „Du bist kalt, du bist warm, du brennst! ...”

AlphAI-Einstellungen

Erinnerung zur Thymio-Verbindung (oben auf der Seite)

WĂ€hlen Sie imMenĂŒ „Einstellungen“ die Option „Beispielkonfigurationen laden ...“ aus.

Doppelklicken Sie im angezeigten Fenster auf die Option „Hindernisvermeidung (Lernen durch VerstĂ€rkung)“.

Unterhalb des Netzwerks sind zwei schwarze Fortschrittsbalken zu sehen.

  • Die linke Leiste zeigt die Belohnungen oder Strafen in Form von Zahlen an. Eine Belohnung wird durch eine positive Zahl dargestellt, ein negativer Wert entspricht einer Strafe.
    Die möglichen Werte fĂŒr Belohnungen sind bereits von Alphai festgelegt.
  • Der rechte Balken zeigt das Niveau an, d. h. den Durchschnitt der bisherigen Belohnungen. Er entspricht dem Lernstand von Thymio.

Außerdem bleiben die Tasten „Lernen” und „Erkunden” aktiviert.

Erste Ausbildung

Beobachten Sie Thymio in der Arena

Starten Sie den autonomen Modus. Thymio setzt sich in Bewegung. Seine erste Bewegung wird zufĂ€llig ausgewĂ€hlt. Beobachten Sie seine Bewegungen und Farbwechsel. Klicken Sie nach etwa 20 Sekunden erneut auf die SchaltflĂ€che „Autonom“, um den Lernvorgang zu beenden .

Frage 1: 

Stellen Sie Verbindungen zwischen den Aktionen des Roboters und den Farben her, die er annimmt. Notieren Sie die Antwort.

Wenn sich Thymio in der Arena vorwĂ€rts bewegt, ist er grĂŒn. Wenn er sich zu nahe nĂ€hert oder eine Wand berĂŒhrt, fĂ€rbt er sich rot.

GrĂŒn bedeutet: Thymio erhĂ€lt eine Belohnung, seine Handlung entspricht seiner Mission.

Rot bedeutet: Thymio erhÀlt eine Strafe, seine Handlung widerspricht seiner Mission. Setzen Sie das Training 5 bis 10 Minuten lang fort.

Frage 2: 

Stellen Sie eine VerÀnderung im Verhalten von Thymio fest? Wenn ja, beschreiben Sie diese. Notieren Sie die Antwort.

Man beobachtet, dass Thymio anfangs ziemlich oft gegen WĂ€nde stĂ¶ĂŸt und Schwierigkeiten hat, sich davon zu lösen. Dann gelingt es ihm immer öfter, dies zu vermeiden.

Man kann sogar mehrere Lernphasen unterscheiden:

Am Anfang lernte Thymio sehr schnell, dass er nicht rĂŒckwĂ€rts fahren sollte.

Anschließend nahm er sehr schnell eine der beiden folgenden Verhaltensweisen an (die SchĂŒler werden das eine oder andere mit ihrem Thymio beobachten): Entweder dreht er sich im Kreis (das ist am hĂ€ufigsten der Fall) oder er fĂ€hrt geradeaus und dreht sich um, wenn er gegen eine Wand stĂ¶ĂŸt.

Dann lernt er nach und nach, zwischen Geradeausfahren und Kurvenfahren zu wechseln, wobei er sich immer hĂ€ufiger fĂŒr Geradeausfahren entscheidet, wenn kein Hindernis vor ihm ist, fĂŒr Linkskurven, wenn rechts eine Mauer ist, und fĂŒr Rechtskurven, wenn links eine Mauer ist.

Erkundung: Klicken Sie auf die SchaltflĂ€che „Erkundung“, um sie zu deaktivieren.

Frage 3:

Stellen Sieeine VerÀnderung im Verhalten von Thymio fest? Wenn ja, beschreiben Sie diese. Notieren Sie die Antwort.

Thymio macht weniger Fehler, er unterbricht seine geraden Linien nicht mehr mit unerwarteten Bewegungen.

Setzen Sie die KI mit der SchaltflĂ€che „KI zurĂŒcksetzen” zurĂŒck. Dadurch „vergisst” Thymio alles, was er gelernt hat, und beginnt von vorne zu lernen (Autonomie aktiviert lassen, aber Erkundung deaktivieren).

Frage 4: 

Stellen Sie Unterschiede zwischen dieser neuen Ausbildung und der vorherigen fest? Wenn ja, beschreiben Sie diese bitte.

Wenn Sie keinen Unterschied feststellen, starten Sie den Lernvorgang erneut , indem Sie auf „KI zurĂŒcksetzen“ drĂŒcken. Notieren Sie sich die Antwort.

Thymio bleibt im Verhalten „Im Kreis drehen” stecken, ohne die gerade Linie zu entdecken. (Dies ist nicht systematisch und manchmal lernt er auch dann richtig, wenn die Erkundung deaktiviert ist).

‍Fazit

Erkundungist fĂŒr das Lernen unerlĂ€sslich.

Die KI probiert von Zeit zu Zeit andere Aktionen aus als die, die sie fĂŒr die beste hĂ€lt (in diesem Fall leuchtet das Aktionssymbol auf der rechten Seite des Bildschirms blau statt schwarz). Dadurch wird vermieden, dass man in einem mittelmĂ€ĂŸigen Verhalten stecken bleibt.

Sobald der Lernprozess abgeschlossen ist, ist die Erkundung jedoch nicht mehr sinnvoll. Es ist daher ratsam, sie zu deaktivieren, um ein möglichst perfektes Verhalten zu erzielen.

Neuronale Netze

Beobachten Sie das Verhalten des neuronalen Netzes.

Wir werden das Verhalten zu Beginn des Lernprozesses in einigen Schritten genau beobachten und notieren.

1. Setzen Sie die KI mit der SchaltflĂ€che „KI zurĂŒcksetzen” zurĂŒck. Stellen Sie Thymio in die Mitte der Arena. Denken Sie daran, dass seine erste Bewegung zufĂ€llig ausgewĂ€hlt wird. Um sich davon zu ĂŒberzeugen, können Sie mehrmals hintereinander auf „KI zurĂŒcksetzen” und „Autonom” klicken.

2. VervollstÀndigen Sie die erste Zeile der Tabelle. Der kleine Strich bedeutet, dass die vorderen Sensoren von Thymio nichts erfassen, da dort nichts ist.

3. Schauen Sie sich Thymio genau an und klicken Sie auf die SchaltflĂ€che „Schritt fĂŒr Schritt”.

Frage 5

Welche Bewegung hat Thymio ausgefĂŒhrt? Notieren Sie in der Zeile der Tabelle, die Sie gerade ausgefĂŒllt haben, den Wert, der dieser Bewegung entspricht. Vergleichen Sie diese Zahl mit den Werten der anderen Aktionen. Was lĂ€sst sich feststellen? Notieren Sie die Antwort.

Dieser Wert ist der grĂ¶ĂŸte. Daher fĂŒhrt Thymio die Bewegung aus, die dem grĂ¶ĂŸten Wert entspricht.

Frage 6

Es ist auch zu beobachten, dass der Roboter eine Belohnung erhalten hat. Entspricht diese Belohnung dem Ziel der Mission? ErlÀutern Sie Ihre Antwort.

Mögliche Antwort: Thymio hat nach links abgebogen und eine Belohnung von +55 erhalten. Das ist normal, da sich vor ihm nichts befindet und er daher abbiegen kann. Nach der Vergabe der ersten Belohnung werden die Ausgangswerte vom neuronalen Netzwerk neu berechnet.

VervollstĂ€ndigen Sie die zweite Zeile der Tabelle und raten Sie dann, wie sich Thymio als NĂ€chstes bewegen wird. Klicken Sie noch ein paar Mal auf die SchaltflĂ€che „Schritt fĂŒr Schritt“ und beobachten Sie, wie sich die Belohnungen und das Level entwickeln.

Auszeichnungen

Das Verhalten des neuronalen Netzes beobachten 

Wir werden das Verhalten zu Beginn des Lernprozesses in einigen Schritten genau beobachten und notieren.

1. Setzen Sie die KI mit der SchaltflĂ€che „KI zurĂŒcksetzen” zurĂŒck. Stellen Sie Thymio in die Mitte der Arena. Denken Sie daran, dass seine erste Bewegung zufĂ€llig ausgewĂ€hlt wird. Um sich davon zu ĂŒberzeugen, können Sie mehrmals hintereinander auf „KI zurĂŒcksetzen” und „Autonom” klicken.

2. VervollstÀndigen Sie die erste Zeile der Tabelle. Der kleine Strich bedeutet, dass die vorderen Sensoren von Thymio nichts erfassen, da dort nichts ist.

3. Schauen Sie sich Thymio genau an und klicken Sie auf die SchaltflĂ€che „Schritt fĂŒr Schritt”.

Frage 7:

Wie entwickelt sich das Level, wenn der Roboter eine Belohnung oder im Gegenteil eine Strafe erhÀlt? Was stellt das Level dar?

Die Antwort notieren.

  • Wenn die Belohnung positiv ist, steigt das Level.
  • Ist die Belohnung negativ, sinkt das Level.

Der Level steht fĂŒr Thymios FĂ€higkeit, positive Belohnungen zu erhalten. Genauer gesagt wird er als Durchschnitt der in der letzten Minute erhaltenen Belohnungen berechnet.

DrĂŒcken Sie nun auf „Autonom“, damit Thymio weiter lernen kann.

‍

Frage 8: 

Wie entwickelt sich das Niveau wÀhrend der Ausbildung?

Warum? ErklÀren Sie:

Das Niveau steigt im Laufe des Lernprozesses. Thymio erhĂ€lt nĂ€mlich immer mehr hohe Belohnungen (insbesondere wenn er geradeaus fĂ€hrt) und immer weniger Strafen (da er immer seltener irgendwo anstĂ¶ĂŸt). Das Ziel des Lernprozesses besteht nĂ€mlich genau darin, das Niveau von Thymio zu steigern.

‍

Strafen

Wenn man die verschiedenen Werte zusammenfasst, die in der Fortschrittsleiste angezeigt werden, hat man Folgendes festgestellt:

100: Wenn Thymio ohne Hindernisse vor ihm geradeaus fÀhrt, ist dies der höchste Wert.

55: Wenn Thymio ohne Hindernisse vorwÀrts fÀhrt.

-50: Thymio fĂŒhrt eine der vielen „falschen“ Aktionen aus, wie z. B. gegen eine Wand fahren, zurĂŒckfahren, obwohl nichts vor ihm ist ...

‍

Wir können den Wert der Strafe Àndern.

● Öffnen Sie die Registerkarte „Belohnung“ und setzen Sie die Strafe auf einen kleinen Wert, beispielsweise 0: Setzen Sie die KI zurĂŒck und starten Sie den Lernvorgang fĂŒr einige Minuten neu.

Beobachten Sie das Verhalten von Thymio: Ist er eher wagemutig oder eher vorsichtig?

SchlÀgt er mehr oder weniger oft gegen die WÀnde?

● Eine höhere Strafe festlegen, beispielsweise 1,5. Die KI erneut zurĂŒcksetzen und den Lernvorgang fĂŒr einige Minuten wiederholen. Gleiche Frage wie zuvor.

‍

Frage 9: 

Fassen Sie zusammen, wie sich das Verhalten von Thymio verÀndert, wenn der Wert der Strafe geÀndert wird. Notieren Sie die Antwort.

Wenn die Strafe gering ist, stĂ¶ĂŸt Thymio zwar hĂ€ufig gegen WĂ€nde, wird jedoch mutiger und erkundet den gesamten Raum.

Wenn die Strafe hart ist, stĂ¶ĂŸt Thymio weniger oft gegen die WĂ€nde, wird aber vorsichtiger und bleibt in einem begrenzten Bereich.