Entdecken Sie unsere Lehrmaterialien

đŸš© Entdeckung: Hindernisvermeidung durch VerstĂ€rkung

Benötigtes Material :

  • 1 Roboter mindestens
  • 1 Computer/Roboter
  • Minimale individuelle Arena

‍

Software-Konfiguration :

  • Beispielkonfiguration: "Lernen durch VerstĂ€rkung - Vermeidung von Hindernissen".

Dauer :

30 Minuten

Alter :

8 Jahre und Àlter

‍


Die + dieser AktivitÀt :

  • VerstĂ€rktes Lernen einfĂŒhren
  • Verstehen des Prinzips "Try and learn" = pĂ€dagogischer Nutzen
  • Kann mit dem Simulator durchgefĂŒhrt werden

‍

Bei dieser AktivitĂ€t wird ein Roboter beobachtet, der nach dem Prinzip des verstĂ€rkten Lernens selbststĂ€ndig lernt. Daraus lassen sich recht allgemeine Schlussfolgerungen ĂŒber die notwendigen Voraussetzungen fĂŒr effektives Lernen ziehen.

‍

EinfĂŒhrung

In dieser AktivitĂ€t wird der Roboter nicht trainiert: Es ist der Roboter selbst, der die Beispiele erstellt, auf die er sich stĂŒtzen kann, um die richtigen Entscheidungen fĂŒr die auszufĂŒhrenden Handlungen zu treffen.
Damit der Roboter zwischen richtigen und falschen Entscheidungen unterscheiden kann, enthÀlt der Algorithmus ein Belohnungssystem.

Hier erhĂ€lt der Roboter je nach ausgefĂŒhrten Aktionen die folgenden Belohnungen: 

  • vorrĂŒcken: 100 Punkte
  • drehen: 82 Punkte
  • zurĂŒckgehen: -50 Punkte
  • Der Roboter erhĂ€lt auch eine Strafe von -50 Punkten, wenn er sich selbst blockiert

In der Leiste "Level" sehen Sie die durchschnittliche Punktzahl der Belohnungen, die der Roboter erhĂ€lt. Sein Ziel ist es, diese Punktzahl zu maximieren; daher wird er nach und nach lernen, die Aktionen auszuwĂ€hlen, die ihm die optimalen Belohnungen einbringen, indem er berĂŒcksichtigt, was seine Sensoren ihm anzeigen

Wir werden also den Fortschritt des Roboters wÀhrend seines Lernprozesses beobachten können. Bauen Sie zunÀchst eine Arena ohne Hindernisse auf und setzen Sie den Roboter hinein.

‍

‍

SelbststÀndiges Lernen des Roboters

WÀhlen Sie in der AlphAI-Software die Beispielkonfiguration: "Lernen durch VerstÀrkung - Vermeidung von Hindernissen".

In dieser AktivitÀt ist es der Roboter, der selbststÀndig lernt!

Starten Sie den autonomen Modus und beobachten Sie Ihren Roboter. Wie verhÀlt er sich?
Wenn der Roboter eine Aktion identifiziert hat, fĂŒr die er eine Belohnung erhĂ€lt (z. B. Drehen), kann es sein, dass er von nun an nur noch diese Aktion ausfĂŒhren will.

Wir aktivieren nun die SchaltflĂ€che "Erkunden": Von Zeit zu Zeit wird sich der Roboter dann entscheiden, eine zufĂ€llige Aktion auszufĂŒhren. So kann er herausfinden, dass die Aktion, die er gewĂ€hlt hĂ€tte, vielleicht nicht diejenige ist, die der optimal möglichen Belohnung entspricht, und so sein Lernen mit neuen Daten bereichern.

Normalerweise lernt er nacheinander, geradeaus zu gehen, sich umzudrehen, wenn er gegen ein Hindernis stĂ¶ĂŸt, und dann, diese Hindernisse im Voraus zu erkennen und somit zu drehen, bevor er dagegen stĂ¶ĂŸt! Dieser Lernprozess dauert etwa zehn Minuten.

Zögern Sie nicht, den Modus "Erkunden" zu deaktivieren, wenn der Roboter beginnt, mehrheitlich die richtigen Aktionen auszuwÀhlen.

‍

‍

Bilanz und Feedback

Wenn das Lernen abgeschlossen ist, halten Sie Ihren Roboter an und klicken Sie in der unteren Leiste auf "Graphen" (wenn die SchaltflÀche nicht erscheint, Àndern Sie die Anzeige der Einstellungen auf "Erweitert" oder "Experte"). Sie können dann im unteren Diagramm die Entwicklung der vom Roboter gemachten Fehler beobachten: Normalerweise sollten die Werte zu Beginn der AktivitÀt sehr hoch sein und dann nach und nach gegen Null tendieren: Der Roboter hat sich selbst beigebracht, keine Fehler mehr zu machen!

Die Funktionsweise des Lernens durch VerstĂ€rkung lĂ€sst sich folgendermaßen zusammenfassen: 

‍

‍

Was der Roboter zum Lernen braucht :

  • Wiederholung einer Aufgabe: Der Roboter findet nicht sofort die richtige Lösung, erst durch Wiederholungen wird er besser.
  • Erkundung: Manchmal muss der Roboter neue Ideen ausprobieren, um nicht in einer nicht optimalen Lösung stecken zu bleiben.
  • Belohnungen oder Strafen : Der Roboter braucht Hilfe von außen, um zu beurteilen, ob seine Entscheidungen optimal sind oder nicht.
  • Der Stellenwert vonFehlern: Der Roboter lernt aus seinen Fehlern, ohne sich entmutigen zu lassen! Durch Fehler lernt er, welche Handlungen er nicht wiederholen darf!
Zum Herunterladen
Verwandte StudiengÀnge