Zapoznaj się z naszymimateriałami na stronie

🚩 Odkrycie: Omijanie przeszkód poprzez wzmocnienie

Potrzebne materiały:

  • Co najmniej 1 robot
  • 1 komputer/robot
  • Minimalna powierzchnia pojedynczej areny

Konfiguracja oprogramowania:

  • przykładowa konfiguracja: „Uczenie się przez wzmocnienie – omijanie przeszkód”

Czas trwania:

30 minut

Wiek:

od 8 lat


Zalety tej aktywności:

  • Wprowadzenie do uczenia się opartego na wzmocnieniu
  • Zrozumienie zasady „próbuj i ucz się” = korzyści dydaktyczne
  • Można to wykonać za pomocą symulatora

Zadanie to polega na obserwacji robota, który uczy się samodzielnie zgodnie z zasadą uczenia się przez wzmocnienie. Można z tego wyciągnąć dość ogólne wnioski dotyczące warunków niezbędnych do skutecznego uczenia się.

Wprowadzenie

W tym ćwiczeniu nie uczymy robota: to sam robot tworzy przykłady, na podstawie których podejmuje właściwe decyzje dotyczące działań, które należy wykonać.
Aby robot potrafił odróżnić dobre decyzje od złych, algorytm zawiera system nagród.

W tym przypadku robot otrzymuje, w zależności od wykonanych czynności, następujące nagrody: 

  • postęp: 100 punktów
  • wynik: 82 punkty
  • cofnąć się: -50 punktów
  • Robot otrzymuje również karę w wysokości -50 punktów, gdy utknie

Na pasku „Poziom” można sprawdzić średnią liczbę punktów zdobytych przez robota. Jego celem jest maksymalizacja tego wyniku, dlatego stopniowo nauczy się wybierać działania, które zapewnią mu optymalną liczbę punktów, biorąc pod uwagę informacje przekazywane przez czujniki

Będziemy więc mogli obserwować postępy robota w trakcie nauki. Zacznij od przygotowania areny bez przeszkód i umieść na niej robota.

Samodzielne uczenie się robota

W programie AlphAI wybierz przykładową konfigurację:„Uczenie się przez wzmocnienie – omijanie przeszkód”.

W tym ćwiczeniu to robot uczy się samodzielnie!

Uruchom tryb autonomiczny i obserwuj swojego robota. Jak się zachowuje?
Gdy robot zidentyfikuje czynność, za którą otrzymuje nagrodę (na przykład obrót), może od tej pory zdecydować się na wykonywanie wyłącznie tej czynności.

Teraz włączymy przycisk „eksploracja”: od czasu do czasu robot zdecyduje się wykonać losową czynność. W ten sposób może odkryć, że wybrana przez niego czynność niekoniecznie zapewnia optymalną możliwą nagrodę, a tym samym wzbogacić swoją wiedzę o nowe dane.

Zazwyczaj uczy się najpierw jeździć prosto, potem zawracać, gdy natrafi na przeszkodę, a następnie rozpoznawać te przeszkody z wyprzedzeniem i skręcać, zanim w nie wjedzie! Nauka ta zajmuje około 10 minut.

Nie wahaj się wyłączyć trybu „eksploracji”, gdy robot zacznie w większości przypadków wybierać właściwe działania.

Podsumowanie i wnioski

Po zakończeniu uczenia zatrzymaj robota i kliknij„wykresy”na dolnym pasku (jeśli przycisk nie jest widoczny, zmień widok ustawień na „zaawansowany” lub „ekspert”). Na dolnym wykresie będzie można obserwować zmiany w błędach popełnianych przez robota: normalnie wartości powinny być bardzo wysokie na początku działania, a następnie stopniowo zbliżać się do zera: robot sam nauczył się nie popełniać błędów!

Działanie uczenia się przez wzmocnienie można podsumować w następujący sposób: 

Co jest potrzebne do nauki robota:

  • Powtarzanie tego samego zadania: robot nie od razu udaje się znaleźć właściwego rozwiązania, dopiero dzięki wielokrotnym powtórzeniom osiąga coraz lepsze wyniki.
  • Eksploracja: robot musi czasem wypróbowywać nowe pomysły, aby nie utknąć w nieoptymalnym rozwiązaniu.
  • Nagrody lub kary: robot potrzebuje pomocy z zewnątrz, aby ocenić, czy jego decyzje są optymalne, czy nie.
  • Rolabłędów: robot uczy się na swoich błędach i nie zniechęca się! Dzięki błędom dowiaduje się, jakich czynności nie powinien powtarzać!
Do pobrania
Powiązane kierunki studiów