��️ Algorytm: Zablokowany vs. Ruch

Potrzebne materiały:

Co najmniej 1 robot
1 komputer/robot
Indywidualna arena

‍

Konfiguracja oprogramowania:

przykładowa konfiguracja: „Zablokowane VS Ruch” w trybie edycji ręcznej, a następnie w trybie „uczenia się przez wzmocnienie”

Czas trwania:

90 minut

Wiek:

od 15 lat

‍

Zalety tej aktywności:

Zrozumienie algorytmu Q-learning
Wielodyscyplinarny (matematyka/informatyka)
Można to wykonać za pomocą symulatora

‍

Celem tego ćwiczenia jest zrozumienie działania algorytmu uczenia się przez wzmocnienie „Q-learning”.

‍

Q-learning to algorytm uczenia się przez wzmocnienie. Robot będzie więc uczył się metodą prób i błędów, w oparciu o nagrody ustalone przez użytkownika (tak jak w scenariuszu„Omijanie przeszkód”).

Dzięki tej metodzie nauczymy robota AlphAI poruszania się po arenie bez uderzania o ściany. To proste zadanie pozwoli nam dobrze zrozumieć mechanizmy zachodzące w sieci neuronowej.

‍

Wdrożenie

Umieść robota na niewielkiej arenie bez przeszkód.

‍

Nagroda i edycja ręczna

W pierwszej części poznajemy zasadę działania systemu nagród i korzystamy z trybu „edycji ręcznej”, aby określić zachowanie robota, które pozwala uzyskać jak największą liczbę nagród.

Uczenie się przez wzmocnienie

W drugiej części obserwujemy proces uczenia się robota krok po kroku oraz zmiany wagi połączeń w sieci. Odkrywamy znaczenieeksploracji w procesie uczenia się.

Q-learning

Następnie należy zapoznać się z samym algorytmem uczenia Q. Polega on głównie na wzorze służącym do aktualizacji wag połączeń po każdej próbie robota. Wzór ten uwzględnia dwa parametry, których przydatność jest przedmiotem dyskusji.

Odkrywamy wpływ czynnika czasu na proces uczenia się: trzeba uczyć się wystarczająco szybko, nie „wyciągając pochopnych wniosków”. Algorytm musi również umieć uwzględniać przyszłe korzyści, a nie tylko te natychmiastowe: musi wypracować długoterminową perspektywę.

Głębokie uczenie się metodą Q

Deep Q-learning stanowi rozwinięcie algorytmu Q-learningu, umożliwiające jego zastosowanie w bardziej złożonych (wielowarstwowych) sieciach neuronowych. Algorytm ten jest wykorzystywany na przykład w scenariuszu „Omijanie przeszkód”.

Do pobrania

Powiązane kierunki studiów

Twój koszyk

Zapoznaj się z naszymimateriałami na stronie

Wdrożenie

Nagroda i edycja ręczna

Uczenie się przez wzmocnienie

Q-learning

Głębokie uczenie się metodą Q