🚩 Aktivität: Die Arena

Material :

1 Roboter mindestens
1 Computer/Roboter
Kleine, mindestens umzäunte Arena mit Hindernissen

‍

Stärken:

Demonstration des Lernens durch Verstärkung (d. h. durch Versuch und Irrtum)
Verbindungen zur Metakognition (d. h. zum Lernen der Schüler!)

Dauer :

1 Stunde

Alter :

8 Jahre und älter

‍

Konfiguration:

Die PDF-Datei enthält detaillierte Informationen zu den einzelnen Schritten der Konfiguration der Parameter.

‍

Illustration Video

Der zweite Teil des Videos „Entdecken Sie Thymio AI” zeigt, wie Thymio mithilfe von Reinforcement Learning „selbstständig” lernt, Wände innerhalb der Arena zu umgehen.

‍

Die Arena

Einrichten des Materials

Eine rechteckige AlphAI-Arena aus festen Wänden oder einen Bereich, der durch ausreichend schwere Gegenstände begrenzt ist, sodass Thymio diese nicht verschieben kann.

Mindestabmessungen: 80 cm x 80cm‍

Lernen durch Verstärkung

Thymios Mission:

Thymiobefindet sich in einer Arena. Sein Ziel ist es, diese Arena zu erkunden, ohne die Wände zu berühren. Wie üblich kann Thymio zu Beginn noch nichts.

Wir beschließen, ihm beizubringen, seine Aufgabe mit einer neuen Methode namens „Verstärkungslernen” auszuführen. Diese Methode gehört ebenfalls zum Bereich der künstlichen Intelligenz.

Wir werden erneut ein neuronales Netzwerk verwenden.

Bei dieser Methode wird Thymio nicht gesagt, welche der verschiedenen möglichen Aktionen er ausführen soll. Er muss selbst eine auswählen. Aber wie kann der Roboter wissen, welche Aktion er wählen soll? Durch Belohnungen, die er erhält oder auch^nicht1.

_‍_{[1] Das erinnert an das Ratespiel „Du bist kalt, du bist warm, du brennst! ...”}

AlphAI-Einstellungen

Erinnerung zur Thymio-Verbindung (oben auf der Seite)

Wählen Sie imMenü „Einstellungen“ die Option „Beispielkonfigurationen laden ...“ aus.

Doppelklicken Sie im angezeigten Fenster auf die Option „Hindernisvermeidung (Lernen durch Verstärkung)“.

Unterhalb des Netzwerks sind zwei schwarze Fortschrittsbalken zu sehen.

Die linke Leiste zeigt die Belohnungen oder Strafen in Form von Zahlen an. Eine Belohnung wird durch eine positive Zahl dargestellt, ein negativer Wert entspricht einer Strafe.
Die möglichen Werte für Belohnungen sind bereits von Alphai festgelegt.

Der rechte Balken zeigt das Niveau an, d. h. den Durchschnitt der bisherigen Belohnungen. Er entspricht dem Lernstand von Thymio.

Außerdem bleiben die Tasten „Lernen” und „Erkunden” aktiviert.

Erste Ausbildung

Beobachten Sie Thymio in der Arena

Starten Sie den autonomen Modus. Thymio setzt sich in Bewegung. Seine erste Bewegung wird zufällig ausgewählt. Beobachten Sie seine Bewegungen und Farbwechsel. Klicken Sie nach etwa 20 Sekunden erneut auf die Schaltfläche „Autonom“, um den Lernvorgang zu beenden .

Frage 1:

Stellen Sie Verbindungen zwischen den Aktionen des Roboters und den Farben her, die er annimmt. Notieren Sie die Antwort.

Wenn sich Thymio in der Arena vorwärts bewegt, ist er grün. Wenn er sich zu nahe nähert oder eine Wand berührt, färbt er sich rot.

Grün bedeutet: Thymio erhält eine Belohnung, seine Handlung entspricht seiner Mission.

Rot bedeutet: Thymio erhält eine Strafe, seine Handlung widerspricht seiner Mission. Setzen Sie das Training 5 bis 10 Minuten lang fort.

Frage 2:

Stellen Sie eine Veränderung im Verhalten von Thymio fest? Wenn ja, beschreiben Sie diese. Notieren Sie die Antwort.

Man beobachtet, dass Thymio anfangs ziemlich oft gegen Wände stößt und Schwierigkeiten hat, sich davon zu lösen. Dann gelingt es ihm immer öfter, dies zu vermeiden.

Man kann sogar mehrere Lernphasen unterscheiden:

Am Anfang lernte Thymio sehr schnell, dass er nicht rückwärts fahren sollte.

Anschließend nahm er sehr schnell eine der beiden folgenden Verhaltensweisen an (die Schüler werden das eine oder andere mit ihrem Thymio beobachten): Entweder dreht er sich im Kreis (das ist am häufigsten der Fall) oder er fährt geradeaus und dreht sich um, wenn er gegen eine Wand stößt.

Dann lernt er nach und nach, zwischen Geradeausfahren und Kurvenfahren zu wechseln, wobei er sich immer häufiger für Geradeausfahren entscheidet, wenn kein Hindernis vor ihm ist, für Linkskurven, wenn rechts eine Mauer ist, und für Rechtskurven, wenn links eine Mauer ist.

Erkundung: Klicken Sie auf die Schaltfläche „Erkundung“, um sie zu deaktivieren.

Frage 3:

Stellen Sieeine Veränderung im Verhalten von Thymio fest? Wenn ja, beschreiben Sie diese. Notieren Sie die Antwort.

Thymio macht weniger Fehler, er unterbricht seine geraden Linien nicht mehr mit unerwarteten Bewegungen.

Setzen Sie die KI mit der Schaltfläche „KI zurücksetzen” zurück. Dadurch „vergisst” Thymio alles, was er gelernt hat, und beginnt von vorne zu lernen (Autonomie aktiviert lassen, aber Erkundung deaktivieren).

Frage 4:

Stellen Sie Unterschiede zwischen dieser neuen Ausbildung und der vorherigen fest? Wenn ja, beschreiben Sie diese bitte.

Wenn Sie keinen Unterschied feststellen, starten Sie den Lernvorgang erneut , indem Sie auf „KI zurücksetzen“ drücken. Notieren Sie sich die Antwort.

Thymio bleibt im Verhalten „Im Kreis drehen” stecken, ohne die gerade Linie zu entdecken. (Dies ist nicht systematisch und manchmal lernt er auch dann richtig, wenn die Erkundung deaktiviert ist).

‍Fazit

Erkundungist für das Lernen unerlässlich.

Die KI probiert von Zeit zu Zeit andere Aktionen aus als die, die sie für die beste hält (in diesem Fall leuchtet das Aktionssymbol auf der rechten Seite des Bildschirms blau statt schwarz). Dadurch wird vermieden, dass man in einem mittelmäßigen Verhalten stecken bleibt.

Sobald der Lernprozess abgeschlossen ist, ist die Erkundung jedoch nicht mehr sinnvoll. Es ist daher ratsam, sie zu deaktivieren, um ein möglichst perfektes Verhalten zu erzielen.

Neuronale Netze

Beobachten Sie das Verhalten des neuronalen Netzes.

Wir werden das Verhalten zu Beginn des Lernprozesses in einigen Schritten genau beobachten und notieren.

1. Setzen Sie die KI mit der Schaltfläche „KI zurücksetzen” zurück. Stellen Sie Thymio in die Mitte der Arena. Denken Sie daran, dass seine erste Bewegung zufällig ausgewählt wird. Um sich davon zu überzeugen, können Sie mehrmals hintereinander auf „KI zurücksetzen” und „Autonom” klicken.

2. Vervollständigen Sie die erste Zeile der Tabelle. Der kleine Strich bedeutet, dass die vorderen Sensoren von Thymio nichts erfassen, da dort nichts ist.

3. Schauen Sie sich Thymio genau an und klicken Sie auf die Schaltfläche „Schritt für Schritt”.

Frage 5

Welche Bewegung hat Thymio ausgeführt? Notieren Sie in der Zeile der Tabelle, die Sie gerade ausgefüllt haben, den Wert, der dieser Bewegung entspricht. Vergleichen Sie diese Zahl mit den Werten der anderen Aktionen. Was lässt sich feststellen? Notieren Sie die Antwort.

Dieser Wert ist der größte. Daher führt Thymio die Bewegung aus, die dem größten Wert entspricht.

Frage 6

Es ist auch zu beobachten, dass der Roboter eine Belohnung erhalten hat. Entspricht diese Belohnung dem Ziel der Mission? Erläutern Sie Ihre Antwort.

Mögliche Antwort: Thymio hat nach links abgebogen und eine Belohnung von +55 erhalten. Das ist normal, da sich vor ihm nichts befindet und er daher abbiegen kann. Nach der Vergabe der ersten Belohnung werden die Ausgangswerte vom neuronalen Netzwerk neu berechnet.

Vervollständigen Sie die zweite Zeile der Tabelle und raten Sie dann, wie sich Thymio als Nächstes bewegen wird. Klicken Sie noch ein paar Mal auf die Schaltfläche „Schritt für Schritt“ und beobachten Sie, wie sich die Belohnungen und das Level entwickeln.

Auszeichnungen

Das Verhalten des neuronalen Netzes beobachten

Wir werden das Verhalten zu Beginn des Lernprozesses in einigen Schritten genau beobachten und notieren.

2. Vervollständigen Sie die erste Zeile der Tabelle. Der kleine Strich bedeutet, dass die vorderen Sensoren von Thymio nichts erfassen, da dort nichts ist.

3. Schauen Sie sich Thymio genau an und klicken Sie auf die Schaltfläche „Schritt für Schritt”.

Frage 7:

Wie entwickelt sich das Level, wenn der Roboter eine Belohnung oder im Gegenteil eine Strafe erhält? Was stellt das Level dar?

Die Antwort notieren.

Wenn die Belohnung positiv ist, steigt das Level.
Ist die Belohnung negativ, sinkt das Level.

Der Level steht für Thymios Fähigkeit, positive Belohnungen zu erhalten. Genauer gesagt wird er als Durchschnitt der in der letzten Minute erhaltenen Belohnungen berechnet.

Drücken Sie nun auf „Autonom“, damit Thymio weiter lernen kann.

‍

Frage 8:

Wie entwickelt sich das Niveau während der Ausbildung?

Warum? Erklären Sie:

Das Niveau steigt im Laufe des Lernprozesses. Thymio erhält nämlich immer mehr hohe Belohnungen (insbesondere wenn er geradeaus fährt) und immer weniger Strafen (da er immer seltener irgendwo anstößt). Das Ziel des Lernprozesses besteht nämlich genau darin, das Niveau von Thymio zu steigern.

‍

Strafen

Wenn man die verschiedenen Werte zusammenfasst, die in der Fortschrittsleiste angezeigt werden, hat man Folgendes festgestellt:

100: Wenn Thymio ohne Hindernisse vor ihm geradeaus fährt, ist dies der höchste Wert.

55: Wenn Thymio ohne Hindernisse vorwärts fährt.

-50: Thymio führt eine der vielen „falschen“ Aktionen aus, wie z. B. gegen eine Wand fahren, zurückfahren, obwohl nichts vor ihm ist ...

‍

Wir können den Wert der Strafe ändern.

● Öffnen Sie die Registerkarte „Belohnung“ und setzen Sie die Strafe auf einen kleinen Wert, beispielsweise 0: Setzen Sie die KI zurück und starten Sie den Lernvorgang für einige Minuten neu.

Beobachten Sie das Verhalten von Thymio: Ist er eher wagemutig oder eher vorsichtig?

Schlägt er mehr oder weniger oft gegen die Wände?

● Eine höhere Strafe festlegen, beispielsweise 1,5. Die KI erneut zurücksetzen und den Lernvorgang für einige Minuten wiederholen. Gleiche Frage wie zuvor.

‍

Frage 9:

Fassen Sie zusammen, wie sich das Verhalten von Thymio verändert, wenn der Wert der Strafe geändert wird. Notieren Sie die Antwort.

Wenn die Strafe gering ist, stößt Thymio zwar häufig gegen Wände, wird jedoch mutiger und erkundet den gesamten Raum.

Wenn die Strafe hart ist, stößt Thymio weniger oft gegen die Wände, wird aber vorsichtiger und bleibt in einem begrenzten Bereich.

Zum Herunterladen

FR - ThymioAI - A1 - Premier apprentissage FR - ThymioAI - A1 - Premier apprentissage (PROF)FR - ThymioAI - A1 - Premier apprentissage (RÉSUMÉ)EN - ThymioAI - A2 - The Arena

Verwandte Studiengänge

Ihr Warenkorb

Entdecken Sie unsere Lehrmaterialien