🚩 Ćwiczenie: Uczenie się poprzez wzmocnienie

Materiały:

Co najmniej 1 robot
1 komputer/robot
Płaski teren

‍

Ustawienia:

Uczenie nadzorowane – omijanie przeszkód (złożone)

Czas trwania: 1 godz. 30 min (2 x 45 min)

Wiek: od 8 lat

‍

Polecane do odkrywania poprzez zabawę

Naucz swojego robota, jak reagować w konkretnych sytuacjach!

Dzięki temu ćwiczeniu dowiesz się, jak skonfigurować oprogramowanie AlphAI i jego sieć neuronową, aby sterować robotem mBot w prostym środowisku.

‍

Sprzęt

Aby wykonać to zadanie, należy złożyć małą kwadratową arenę:

Zalecamy skorzystanie z naszej indywidualnej areny, dostępnej na naszej stronie internetowej lub u naszych dystrybutorów.

Można również stworzyć własną arenę. W tym celu potrzebna jest płaska i czysta powierzchnia (na przykład stół), otoczona barierkami w kolorze innym niż podłoga, które będą wystarczająco solidne, aby zatrzymać robota.

‍

Konfiguracja

Konfigurację oprogramowania można przeprowadzić ręcznie lub automatycznie. Aby skonfigurować je automatycznie: Ustawienia > Załaduj przykładowe ustawienia > Uczenie się przez wzmocnienie – Omijanie przeszkód. Konfigurację można również przeprowadzić ręcznie, postępując zgodnie z instrukcjami podanymi obok.

Czujniki > Ultradźwiękowe, wykrywanie ruchu, ostatnia wykonana czynność

Czynności > Przesuwanie do przodu, obrót, cofanie z obrotem

Nagroda > „Omijanie przeszkód”

Sztuczna inteligencja > Rodzaj uczenia się: „Uczenie się przez wzmocnienie”, Algorytm: „deep Q-Learning”, Warstwy neuronów pośrednich: 300, 100, 50.

‍

Wizualizacja > Wybierz: „sieć neuronowa”, „połączenia”, „aktywność synaptyczna”

Koncepcja

W przypadku tego ćwiczenia nie ma etapu rozgrzewki.

W uczeniu się przez wzmocnienie robot uczy się samodzielnie metodą prób i błędów. Wystarczy nacisnąć przycisk „Autonomiczny”, aby rozpocząć ćwiczenie i pozwolić robotowi trenować samodzielnie.

Po naciśnięciu przycisku wystarczy tylko obserwować robota i pozwolić mu samodzielnie ćwiczyć.

Można również zauważyć, że sieć neuronowa jest znacznie większa i posiada kilka warstw pośrednich. Uczenie się przez wzmocnienie to znacznie bardziej złożona forma sztucznej inteligencji, która wymaga wykonania znacznie większej liczby obliczeń niż ta stosowana w uczeniu nadzorowanym.

Celem tego zadania jest zrozumienie:

Jak robot podejmuje decyzję.
Jak zmienia się jego decyzja w trakcie treningu.
W jaki sposób robot omija przeszkody i porusza się po arenie, nie dotykając ścian.

‍

Zrozumienie systemów motywacyjnych

Główna różnica między uczeniem nadzorowanym a uczeniem się przez wzmocnienie polega na systemie nagród. Jak widać, na dole ekranu pojawiły się teraz dwa bloki: „Nagroda” i „Poziom”. Ale co one oznaczają?

Każdemu działaniu przypisana jest wartość od -100 do 100. Poziom odpowiada średniej wszystkich tych wartości.

Postęp = +100

Skręć w prawo/w lewo = +55

Cofanie z skrętem = -50

Gdy koła się zablokują, robot traci 50 punktów

Podobnie jak my, ludzie, robot lubi otrzymywać pozytywne nagrody i nie lubi negatywnych.

Robot będzie więc próbował różnych działań, które może wykonać, początkowo w sposób całkowicie losowy, ale szybko zrozumie, że niektóre z nich przynoszą mu większe korzyści niż inne, i będzie dążył do ich maksymalizacji, a następnie optymalizacji. Poziom ten stanowi średnią wszystkich zgromadzonych nagród i stanowi dobry wskaźnik ogólnego poziomu robota, czyli jego zdolności do poruszania się po arenie, omijając ściany. Po przeprowadzeniu wielu prób poziom osiąga szczyt na poziomie około 80–90. Na tym poziomie robot praktycznie nie otrzymuje już żadnych negatywnych nagród, a średnia z czasem tylko rośnie.

W programowaniu sztucznej inteligencji metodą uczenia się przez wzmocnienie chodzi o to, by przyznawać największe nagrody za działania, które ma ona opanować.

Na przykład, aby sztuczna inteligencja nauczyła się parkować na konkretnym miejscu, programowano ją tak, że im bardziej zbliżała się do tego miejsca, tym większą otrzymywała nagrodę, a im bardziej się od niego oddalała, tym większą karę.

System nagród to metoda nauczania, która najbardziej przypomina naszą. W rzeczywistości nasz sposób nauczania również opiera się na systemie nagród – aby pomóc uczniom w nauce, stworzyliśmy system ocen; nagradzamy uczniów, którzy dobrze opanowali materiał, a karzemy pozostałych.

‍

Do pobrania

TP - Apprentissage par renforcement

Powiązane kierunki studiów

Twój koszyk

Zapoznaj się z naszymimateriałami na stronie

Sprzęt

Konfiguracja

Koncepcja