Entdecken Sie unsere
Ressourcen
Benötigtes Material :
- 1 Roboter mindestens
- 1 Computer/Roboter
- Individuelle Arena
Software-Konfiguration :
- Beispielkonfiguration: "Blockiert VS Bewegung" im manuellen Bearbeitungsmodus und dann im Modus "Lernen durch Verstärkung".
Dauer :
90 Minuten
Alter :
15 Jahre und älter
Die + dieser Aktivität :
- Den Q-Learning-Algorithmus verstehen
- Fächerübergreifend (Mathematik/Informatik)
- Kann mit dem Simulator durchgeführt werden
Ziel dieser Aktivität ist es, die Funktionsweise des Q-Learning-Algorithmus zu verstehen.
Q-Learning ist ein Algorithmus für das Lernen durch Verstärkung. Der Roboter wird also durch Versuch und Irrtum lernen, auf der Grundlage von Belohnungen, die vom Benutzer festgelegt werden (wie im Szenario "Hindernissen ausweichen").
Mithilfe dieser Methode werden wir einen AlphAI-Roboter trainieren, sich in einer Arena zu bewegen, ohne an den Wänden hängen zu bleiben. Diese einfache Aufgabe wird uns helfen, die Mechanismen zu verstehen, die auf der Ebene des neuronalen Netzes wirken.
[Videoinhalt folgt]
Einsetzen
Stellen Sie den Roboter in eine kleine Arena ohne Hindernisse.
Belohnung und manuelle Bearbeitung
In einem ersten Teil lernen wir das Prinzip der Belohnungen kennen und verwenden den Modus "Manuelle Bearbeitung", um das Verhalten des Roboters zu finden, das die erhaltenen Belohnungen maximiert.
Lernen durch Verstärkung
In einem zweiten Teil wird beobachtet, wie der Roboter Schritt für Schritt lernt und wie sich die Gewichte der Verbindungen im Netzwerk verändern. Man entdeckt, wie wichtig dasErkunden beim Lernen ist.
Q-Learning
Anschließend geht es darum, den eigentlichen Q-Learning-Algorithmus zu entdecken. Er besteht hauptsächlich aus einer Formel, mit der die Gewichte der Verbindungen nach jedem Versuch des Roboters aktualisiert werden. In diese Formel fließen zwei Parameter ein, deren Nutzen diskutiert wird.
Man entdeckt den Einfluss der Zeitlichkeit auf das Lernen: Man muss schnell genug lernen, ohne "auf eine Schlussfolgerung aufzuspringen". Der Algorithmus muss auch in der Lage sein, zukünftige Belohnungen zu berücksichtigen und nicht nur die unmittelbare Belohnung: Er muss eine längerfristige Vision entwickeln.
Deep Q-learning
Deep Q-Learning ist eine Weiterentwicklung des Q-Learning-Algorithmus, um ihn auf komplexere (mehrschichtige) neuronale Netze anzuwenden. Dieser Algorithmus wird z. B. im Szenario "Hindernissen ausweichen" verwendet.