Entdecken Sie unsere
Ressourcen

Aktivität: Blockiert VS Bewegung

Benötigtes Material :

  • 1 Roboter mindestens
  • 1 Computer/Roboter
  • Individuelle Arena

Software-Konfiguration :

  • Beispielkonfiguration: "Blockiert VS Bewegung" im manuellen Bearbeitungsmodus und dann im Modus "Lernen durch Verstärkung".

Dauer :

90 Minuten

Alter :

15 Jahre und älter

Die + dieser Aktivität :

  • Den Q-Learning-Algorithmus verstehen
  • Fächerübergreifend (Mathematik/Informatik)
  • Kann mit dem Simulator durchgeführt werden

Ziel dieser Aktivität ist es, die Funktionsweise des Q-Learning-Algorithmus zu verstehen.

Q-Learning ist ein Algorithmus für das Lernen durch Verstärkung. Der Roboter wird also durch Versuch und Irrtum lernen, auf der Grundlage von Belohnungen, die vom Benutzer festgelegt werden (wie im Szenario "Hindernissen ausweichen").

Mithilfe dieser Methode werden wir einen AlphAI-Roboter trainieren, sich in einer Arena zu bewegen, ohne an den Wänden hängen zu bleiben. Diese einfache Aufgabe wird uns helfen, die Mechanismen zu verstehen, die auf der Ebene des neuronalen Netzes wirken.

[Videoinhalt folgt]

Einsetzen

Stellen Sie den Roboter in eine kleine Arena ohne Hindernisse. 

Belohnung und manuelle Bearbeitung

In einem ersten Teil lernen wir das Prinzip der Belohnungen kennen und verwenden den Modus "Manuelle Bearbeitung", um das Verhalten des Roboters zu finden, das die erhaltenen Belohnungen maximiert.

Lernen durch Verstärkung

In einem zweiten Teil wird beobachtet, wie der Roboter Schritt für Schritt lernt und wie sich die Gewichte der Verbindungen im Netzwerk verändern. Man entdeckt, wie wichtig dasErkunden beim Lernen ist.

Q-Learning

Anschließend geht es darum, den eigentlichen Q-Learning-Algorithmus zu entdecken. Er besteht hauptsächlich aus einer Formel, mit der die Gewichte der Verbindungen nach jedem Versuch des Roboters aktualisiert werden. In diese Formel fließen zwei Parameter ein, deren Nutzen diskutiert wird.

Man entdeckt den Einfluss der Zeitlichkeit auf das Lernen: Man muss schnell genug lernen, ohne "auf eine Schlussfolgerung aufzuspringen". Der Algorithmus muss auch in der Lage sein, zukünftige Belohnungen zu berücksichtigen und nicht nur die unmittelbare Belohnung: Er muss eine längerfristige Vision entwickeln.

Deep Q-learning

Deep Q-Learning ist eine Weiterentwicklung des Q-Learning-Algorithmus, um ihn auf komplexere (mehrschichtige) neuronale Netze anzuwenden. Dieser Algorithmus wird z. B. im Szenario "Hindernissen ausweichen" verwendet.

Zum Herunterladen
Verwandte Studiengänge