Entdecken Sie unsere Lehrmaterialien
Material :
- 1 Roboter mindestens
- 1 Computer/Roboter
- Flache Umgebung
â
Einstellungen :
- Ăberwachtes Lernen - Vermeidung von Hindernissen (komplex)
Dauer: 1,5 Stunden (2*45 min)
Alter: 8 Jahre und Àlter
â
Empfohlen zum Entdecken durch Manipulation
Bringen Sie Ihrem Roboter bei, auf bestimmte Situationen zu reagieren!
In dieser AktivitÀt lernen Sie, wie Sie die AlphAI-Software und das neuronale Netz einrichten, um mBot in einer einfachen Umgebung zu betreiben.
â
Material
FĂŒr die DurchfĂŒhrung dieser AktivitĂ€t mĂŒssen Sie eine kleine quadratische Arena zusammenbauen:
Wir empfehlen Ihnen, unsere individuelle Arena zu verwenden, die auf unserer Website oder bei unseren HÀndlern erhÀltlich ist.
Sie können auch Ihre eigene Arena errichten. Dazu benötigen Sie eine saubere, ebene FlÀche (z. B. einen Tisch), die von Begrenzungen (z.B. aus Holz) umgeben ist, deren Farbe sich vom Boden unterscheidet und die stark genug sind, um den Roboter aufzuhalten.

â
Konfiguration
Die Software kann manuell oder automatisch konfiguriert werden.So konfigurieren Sie die Software automatisch:Einstellungen > Beispielparameter laden > VerstÀrkendes Lernen- Hindernisse vermeidenDie Konfiguration kann auch manuell erfolgen, indem Sie den nebenstehenden Anweisungen folgen.
- Sensoren > Ultraschall, Bewegungserkennung, zuletzt ausgefĂŒhrte Aktion



- Aktionen > VorwĂ€rts, Drehen, RĂŒckwĂ€rts beim Drehen

- Belohnung > "Hindernis ausweichen".

- KI > Lernart "VerstÀrkendes Lernen", Algorithmus" deep Q-Learning ",Intermediate Neuronal Layer: 300 100 50.


â
- Visualisierung > WÀhlen Sie: "Neuronales Netz", "Verbindungen", "Synaptische AktivitÀt".

Konzept
FĂŒr diese AktivitĂ€t gibt es keine Trainingsphase.
Beim Lernen durch VerstĂ€rkung lernt der Roboter selbststĂ€ndig durch Versuch und Irrtum. Durch einfaches DrĂŒcken der Taste "SelbststĂ€ndig" beginnt die AktivitĂ€t und lĂ€sst den Roboter selbststĂ€ndig ĂŒben.

Sobald der Knopf gedrĂŒckt ist, muss man den Roboter nur noch beobachten und ihn selbststĂ€ndig trainieren lassen.
Sie können auch sehen, dass das neuronale Netz viel imposanter ist und ĂŒber mehrere Zwischenschichten verfĂŒgt. Die VerstĂ€rkungs-KI ist eine viel komplexere KI, die viel mehr Berechnungen durchfĂŒhrt als die KI, die fĂŒr das ĂŒberwachte Lernen verwendet wird.
âDieHerausforderung dieser AktivitĂ€t besteht darin, zu verstehen :
- Wie der Roboter eine Entscheidung trifft.
- Wie sich ihre Entscheidung im Laufe des Trainings verÀndert.
- Wie der Roboter Hindernissen ausweicht und sich in der Arena bewegt, ohne die WĂ€nde zu berĂŒhren.
â
- Belohnungssysteme verstehen
Der groĂe Unterschied zwischen dem ĂŒberwachten Lernen und dem Lernen durch VerstĂ€rkung liegt im Belohnungssystem. Wie Sie sehen können, gibt es jetzt diese beiden Blöcke "Belohnung" und "Stufe" am unteren Bildschirmrand. Aber was bedeuten sie?

Jede Aktion wird mit einer Belohnung zwischen -100 und 100 belohnt. Die Stufe ihm entspricht dem Durchschnitt aller Belohnungen.
VorrĂŒcken = +100
Nach rechts/links drehen = +55
Beim Drehen rĂŒckwĂ€rts gehen = -50
Wenn die RÀder blockieren, erhÀlt der Roboter eine Belohnung von -50
Ebenso wie wir Menschen erhÀlt der Roboter gerne positive Belohnungen und mag keine negativen Belohnungen.
Der Roboter wird also die verschiedenen Aktionen, die er ausfĂŒhren kann, ausprobieren, und zwar zunĂ€chst völlig zufĂ€llig, wird dann aber schnell feststellen, dass bestimmte Aktionen ihm bessere Belohnungen bringen als andere, und wird versuchen, diese zu maximieren und dann zu optimieren. Das Niveau stellt den Durchschnitt aller gesammelten Belohnungen dar und gibt einen guten Hinweis auf das allgemeine Niveau des Roboters, d. h. auf seine FĂ€higkeit, sich in der Arena zu bewegen und dabei den WĂ€nden auszuweichen. Wenn man eine groĂe Anzahl von Versuchen simuliert, erreicht das Niveau seinen Höhepunkt bei etwa 80-90. Auf diesem Niveau erhĂ€lt der Roboter fast gar keine negativen Belohnungen mehr und der Durchschnitt steigt mit der Zeit nur noch an.

Der Trick bei der Programmierung einer kĂŒnstlichen Intelligenz durch VerstĂ€rkung besteht darin, die gröĂten Belohnungen auf die Handlungen anzuwenden, die sie beherrschen soll.
Zum Beispiel wurde eine Intelligenz, die lernen sollte, an einem bestimmten Parkplatz einzuparken, so programmiert, dass sie eine Belohnung erhielt, die immer positiver wurde, je nÀher sie dem Parkplatz kam, und immer negativer, je weiter sie sich davon entfernte.
Das Belohnungssystem ist die Lernmethode, die unserer eigenen Lernen am nĂ€chsten kommt. TatsĂ€chlich funktioniert unsere Art zu unterrichten auch mit einem Belohnungssystem. Um den SchĂŒler:innen beim Lernen zu helfen, wurde das Notensystem erfunden; SchĂŒler:innen, die ihre Lektion gut gelernt haben, werden belohnt und die anderen bestraft.
â