🚩 Algorithmus: Blockiert vs. Bewegung

Benötigtes Material :

mindestens 1 Roboter
1 Computer/Roboter
Individuelle Arena

‍

Software-Konfiguration :

Beispielkonfiguration: "Blockiert VS Bewegung" im manuellen Bearbeitungsmodus und dann im Modus "Lernen durch Reinforcement Learning".

Dauer :

90 Minuten

Alter :

15 Jahre und älter

‍

Die + dieser Aktivität :

Den Q-Learning-Algorithmus verstehen
Fächerübergreifend (Mathematik/Informatik)
Kann mit dem Simulator durchgeführt werden

‍

Das Ziel dieser Aktivität ist es, die Funktionsweise des Algorithmus des verstärkenden Lernens „Q-Learning” zu verstehen.

‍

Q-Learning ist ein Algorithmus für das Lernen durch Reinforcement Learning. Der Roboter wird also durch Try and Error lernen, auf der Grundlage von Belohnungen, die vom Benutzer festgelegt werden (wie im Szenario "Hindernissen ausweichen").

Mithilfe dieser Methode werden wir einen AlphAI-Roboter trainieren, sich in einer Arena zu bewegen, ohne an den Wänden hängen zu bleiben. Diese einfache Aufgabe wird uns helfen, die Mechanismen zu verstehen, die auf der Ebene des neuronalen Netzes wirken.

‍

Einsetzen

Stellen Sie den Roboter in eine kleine Arena ohne Hindernisse.

‍

Belohnung und manuelle Bearbeitung

In einem ersten Teil lernen wir das Prinzip der Belohnungen kennen und verwenden den Modus "Manuelle Bearbeitung", um das Verhalten des Roboters zu finden, das die erhaltenen Belohnungen maximiert.

Lernen durch Reinforcement Learning

In einem zweiten Teil wird beobachtet, wie der Roboter Schritt für Schritt lernt und wie sich die Gewichte der Verbindungen im Netzwerk verändern. Man entdeckt, wie wichtig dasErkunden beim Lernen ist.

Q-Learning

Anschließend geht es darum, den eigentlichen Q-Learning-Algorithmus zu entdecken. Er besteht hauptsächlich aus einer Formel, mit der die Gewichte der Verbindungen nach jedem Versuch des Roboters aktualisiert werden. In diese Formel fließen zwei Parameter ein, deren Nutzen diskutiert wird.

Man entdeckt den Einfluss der Zeitlichkeit auf das Lernen: Man muss schnell genug lernen, ohne "auf eine Schlussfolgerung aufzuspringen". Der Algorithmus muss auch in der Lage sein, zukünftige Belohnungen zu berücksichtigen und nicht nur die unmittelbare Belohnung: Er muss eine längerfristige Vision entwickeln.

Deep Q-learning

Deep Q-Learning ist eine Weiterentwicklung des Q-Learning-Algorithmus, um ihn auf komplexere (mehrschichtige) neuronale Netze anzuwenden. Dieser Algorithmus wird z. B. im Szenario "Hindernissen ausweichen" verwendet.

Zum Herunterladen

Verwandte Studiengänge

Ihr Warenkorb

Entdecken Sie unsere Lehrmaterialien

Einsetzen

Belohnung und manuelle Bearbeitung

Lernen durch Reinforcement Learning

Q-Learning

Deep Q-learning