Zapoznaj się z naszymimateriałami na stronie

🚩 Odkrywanie: Śledzenie kolorowego balonu

Potrzebne materiały:

  • 1 robot
  • 1 komputer
  • 1 balonik (najlepiej zielony)
  • Zalecane: stelaż i sznurek do zawieszenia piłki na wysokości, arena

Zalety tej aktywności:

  • Zabawne
  • Ceniona przez osoby w każdym wieku
  • Idealna do wprowadzenia zasady uczenia się poprzez wzmocnienie

Czas trwania:

40–60 minut

Wiek:

od 8 lat

Konfiguracja oprogramowania:

Tryb „śledzenia piłki (zielony)”

Celem jest wykorzystanie uczenia się przez wzmocnienie do wyszkolenia robota w zakresie śledzenia piłki. Opierając się na zasadzie prób i błędów, robot stopniowo dostosowuje swoje zachowanie w odpowiedzi na sygnały zwrotne z otoczenia, reprezentowane przez nagrody.

Wprowadzenie

Zbuduj arenę z zieloną piłką zawieszoną pośrodku, która posłuży robotowi jako punkt orientacyjny. Robot musi nauczyć się podążać za nią podczas eksploracji przestrzeni. Zadbaj o wyraźny kontrast między podłogą a ścianami, równomierne oświetlenie oraz czystą podłogę, aby zapewnić niezawodne wykrywanie, płynny ruch oraz optymalne warunki obserwacji.

Ustawienia

Podłącz robota z komputerem, a następnie wybierz przykładową konfigurację „śledzenie piłki (zielona)”.

Ważne jest, aby sprawdzić, czy gdy robot patrzy na piłkę, zielone piksele piłki są prawidłowo rozpoznawane. Wyraża się to pojawieniem się małych żółtych znaczników na obrazie zarejestrowanym przez kamerę. W żadnym innym miejscu obrazu nie powinny być widoczne żadne inne zielone piksele.

Błędne wykrycie
Prawidłowe wykrywanie

Jeśli tak nie jest, należy dostosować ustawienia wykrywania kolorów w zakładce „Nagrody”, aby uzyskać zadowalający wynik.

Upewnij się również, że piłka jest nadal prawidłowo wykrywana, nawet gdy obserwuje się ją pod różnymi kątami.

Trening

Włącz przycisk „Autonomiczny”, aby rozpocząć fazę uczenia się.

Robot przechodzi wówczas do fazy eksploracji, podczas której stosuje strategię opartą na metodzie prób i błędów. Wykonuje różne czynności w sposób losowy, aby zbadać dostępne możliwości. Ten etap ma kluczowe znaczenie dla samodzielnego odkrywania przez niego konsekwencji swoich wyborów.

Po każdym wykonanym działaniu robot otrzymuje informację zwrotną w postaci nagrody pozytywnej , negatywnej lub zerowej. Mechanizm ten motywuje go do preferowania zachowań korzystnych oraz unikania tych, które są nieskuteczne lub przynoszą efekt przeciwny do zamierzonego. Stopniowo udoskonala on swoją strategię i poprawia swoje wyniki.

Zauważysz wyraźną zmianę w jego działaniu: przypadkowe i nieistotne ruchy stają się coraz rzadsze, podczas gdy skuteczne zachowania stają się coraz częstsze. W ten sposób robot coraz bardziej skupia się na swoim z góry określonym celu końcowym.

Test wiedzy

Gdy zachowanie robota stanie się spójne (tj. gdy będzie skutecznie i równomiernie podążał za piłką): Wyłącz przycisk „Eksploracja”.

Na tym etapie robot wykonuje wyłącznie czynności, które uznał za najskuteczniejsze, nie wprowadzając przy tym żadnych przypadkowych działań. Zapewnia to bardziej stabilne, przewidywalne i zoptymalizowane działanie, oparte na doświadczeniu zdobytym podczas fazy eksploracji.

Wnioski

W tym przypadku zastosowaliśmy algorytm uczenia się przez wzmocnienie. Dzięki fazie prób i błędów, kierowanej przez system nagród, robot stopniowo uczy się optymalnego zachowania w zakresie śledzenia wzrokowego.

Na każdym etapie agent wykonuje czynność, która zmienia stan otoczenia. Następnie musi zdecydować, czy dalej badać otoczenie w poszukiwaniu nowych nagród, czy też wykorzystać swoją dotychczasową wiedzę, aby wybrać działania przynoszące największe korzyści w danym stanie. Zachowanie to odzwierciedla fundamentalny kompromis między eksploracją a eksploatacją w uczeniu się przez wzmocnienie.

Skuteczna strategia uczenia się polega zatem na stopniowym ograniczaniu niepotrzebnych prób, a także na coraz bardziej dostosowanym i spójnym zachowaniu z upływem czasu.

Powiązane kierunki studiów