Zapoznaj się z naszymimateriałami na stronie

Materiały:
- Co najmniej 1 robot
- 1 komputer/robot
- Mała, przynajmniej zamknięta arena z przeszkodami
Najważniejsze zalety:
- Demonstracja uczenia się przez wzmocnienie (tj. metodą prób i błędów)
- Związki z metapoznaniem (tj. procesem uczenia się uczniów!)
Czas trwania:
1 godzina
Wiek:
od 8 lat
Konfiguracja:
W pliku PDF szczegółowo opisano kolejne etapy konfiguracji ustawień.
Ilustracja wideo
W drugiej części filmu „Odkrywanie Thymio AI” pokazano, jak wykorzystano uczenie się przez wzmocnienie, aby Thymio nauczył się „samodzielnie” omijać ściany wewnątrz areny.
Arena
Instalacja sprzętu
Należy przygotować prostokątną arenę AlphAI złożoną ze ścian połączonych ze sobą lub przestrzeń wyznaczoną przez przedmioty wystarczająco ciężkie, aby Thymio nie mógł ich przesunąć.
Minimalne wymiary: 80 cm x 80cm
Uczenie się przez wzmocnienie
Zadanie Thymio:
Thymioznajduje się na arenie. Jego zadaniem jest zbadanie tej areny bez dotykania ścian. Jak zwykle na początku Thymio nie potrafi nic zrobić.
Postanowiliśmy nauczyć go wykonywania zadania za pomocą nowej metody zwanej uczeniem się przez wzmocnienie. Jest to metoda należąca również do dziedziny sztucznej inteligencji.
Ponownie wykorzystamy sieć neuronową.
W tej metodzie nie podaje się Thymio, którą z możliwych czynności ma wykonać. To on sam musi ją wybrać. Ale skąd robot ma wiedzieć, którą czynność wybrać? Dzięki nagrodom, które mu przyznamy – lubnie1.
[1] Przypomina to zabawę w zgadywanie: „jest ci zimno, jest ci ciepło, parzysz! ...”
Ustawienia AlphAI
Przypomnienie o logowaniu do Thymio (na górę strony)
Wmenu ustawień wybierz opcję „Wczytaj przykładowe konfiguracje”...
W wyświetlonym oknie kliknij dwukrotnie opcję „Omijanie przeszkód (uczenie się przez wzmocnienie)”.
Pod siatką widać dwa czarne paski postępu.
- Pasek po lewej stronie wyświetla nagrody lub kary w postaci liczb. Nagroda jest oznaczona liczbą dodatnią, natomiast wartość ujemna oznacza karę.
Możliwe wartości nagród zostały już ustalone przez Alphai.
- Pionowy pasek po prawej stronie wskazuje poziom, czyli średnią dotychczasowych nagród. Odzwierciedla on postępy Thymio w nauce.
Ponadto przyciski nauki i eksploracji pozostaną włączone.
Pierwsza praktyka zawodowa
Obserwuj Thymio na arenie
Uruchom tryb autonomiczny. Thymio zaczyna się poruszać. Jego pierwszy ruch jest wybierany losowo. Obserwuj jego ruchy i zmiany koloru. Po około 20 sekundach kliknij ponownie przycisk trybu autonomicznego, aby zatrzymać proces uczenia się.
Pytanie 1:
Należy powiązać czynności wykonywane przez robota z kolorami, które przybiera. Zapisać odpowiedź.
Kiedy Thymio porusza się do przodu po arenie, jest zielony. Kiedy zbliża się zbyt blisko lub dotyka ściany, zmienia kolor na czerwony.
Kolor zielony oznacza: Thymio otrzymuje nagrodę, jego działanie jest zgodne z jego misją.
Czerwony kolor oznacza: Thymio otrzymuje karę, jego zachowanie jest sprzeczne z jego zadaniem. Kontynuuj naukę przez 5–10 minut.
Pytanie 2:
Czy zauważają Państwo jakąś zmianę w zachowaniu Thymio? Jeśli tak, proszę ją opisać. Proszę zapisać odpowiedź.
Widać, że na początku Thymio dość często uderza w ściany i ma trudności z się od nich odbić. Potem coraz częściej udaje mu się ich unikać.
Można nawet wyróżnić kilka etapów w procesie uczenia się:
Na początku Thymio bardzo szybko zorientował się, że nie wolno się cofać.
Następnie bardzo szybko przyjął jeden z dwóch następujących zachowań (uczniowie zaobserwują jedno z nich u swojego Thymio): albo kręcił się w kółko (to najczęstszy przypadek), albo poruszał się po linii prostej i zawracał, gdy natrafiał na ścianę.
Następnie stopniowo uczy się przechodzić od jazdy na wprost do skrętu, coraz częściej wybierając jazdę na wprost, gdy przed nim nie ma przeszkody, skręcając w lewo, jeśli po prawej stronie znajduje się ściana, a w prawo, jeśli po lewej stronie znajduje się ściana.
Eksploracja: kliknij przycisk eksploracji, aby go wyłączyć.
Pytanie 3:
Czy zauważają Państwojakąś zmianę w zachowaniu Thymio? Jeśli tak, proszę ją opisać. Proszę zapisać odpowiedź.
Thymio popełnia mniej błędów, nie przerywa już biegu po linii prostej nieoczekiwanymi ruchami.
Zresetuj sztuczną inteligencję za pomocą przycisku „Zresetuj sztuczną inteligencję”. Spowoduje to, że Thymio „zapomni” wszystko, czego się nauczył, i rozpocznie naukę od nowa (z włączoną funkcją autonomii, ale wyłączoną funkcją eksploracji).
Pytanie 4:
Czy zauważają Państwo różnice między tym nowym kursem a poprzednim? Jeśli tak, proszę je opisać.
Jeśli nie zauważysz żadnej różnicy, rozpocznij proces uczenia od nowa, naciskając przycisk „Zresetuj AI”. Zanotuj odpowiedź.
Thymio wciąż kręci się w kółko, nie potrafiąc znaleźć prostej linii. (Nie dzieje się tak zawsze i zdarza mu się nauczyć tego prawidłowo, nawet gdy funkcja eksploracji jest wyłączona).
Podsumowanie
Odkrywaniejest niezbędnym elementem nauki.
Sztuczna inteligencja od czasu do czasu próbuje wykonać inne działania niż te, które „uważa” za najlepsze (gdy tak się dzieje, ikona akcji po prawej stronie ekranu świeci się na niebiesko zamiast na czarno). Dzięki temu nie utknie w rutynie przeciętnych wyników.
Z drugiej strony, po zakończeniu uczenia się eksploracja nie jest już potrzebna, dlatego warto ją wyłączyć, aby uzyskać jak najdoskonalsze zachowanie.
Sieci neuronowe
Obserwuj zachowanie sieci neuronowej.
Na początku nauki będziemy szczegółowo obserwować i notować zachowanie na kilku etapach.
1. Zresetuj sztuczną inteligencję za pomocą przycisku „Zresetuj AI”. Umieść Thymio na środku areny. Przypominamy, że jego pierwszy ruch jest wybierany losowo. Aby się o tym przekonać, możesz kilkakrotnie kliknąć kolejno przyciski „Zresetuj AI” i „Autonomiczny”.
2. Uzupełnij pierwszy wiersz tabeli. Krótka kreska oznacza, że przednie czujniki Thymio niczego nie wykrywają, ponieważ nic tam nie ma.
3. Spójrz uważnie na Thymio i kliknij przycisk „krok po kroku”.

Pytanie 5
Jakie ruchy wykonał Thymio? W wierszu tabeli, którą właśnie wypełniłeś, znajdź wartość odpowiadającą temu ruchowi. Porównaj tę liczbę z wartościami pozostałych czynności. Co można zauważyć? Zapisz odpowiedź.
Ta wartość jest największa. Dlatego Thymio wykonuje ruch odpowiadający największej wartości.
Pytanie 6
Widać również, że robot otrzymał nagrodę. Czy nagroda ta wydaje się zgodna z celem misji? Wyjaśnij.
Możliwa odpowiedź: Thymio skręcił w lewo i otrzymał nagrodę w wysokości +55. To normalne, ponieważ przed nim nie ma żadnych przeszkód, więc może skręcić. Po przyznaniu pierwszej nagrody sieć neuronowa ponownie oblicza wartości wyjściowe.
Uzupełnij drugi wiersz tabeli, a następnie spróbuj odgadnąć, jaki będzie następny ruch Thymio. Kliknij jeszcze kilka razy przycisk „krok po kroku”, obserwując zmiany w nagrodach i poziomie.
Nagrody
Obserwowanie zachowania sieci neuronowej
Na początku nauki będziemy szczegółowo obserwować i notować zachowanie na kilku etapach.
1. Zresetuj sztuczną inteligencję za pomocą przycisku „Zresetuj AI”. Umieść Thymio na środku areny. Przypominamy, że jego pierwszy ruch jest wybierany losowo. Aby się o tym przekonać, możesz kilkakrotnie kliknąć kolejno przyciski „Zresetuj AI” i „Autonomiczny”.
2. Uzupełnij pierwszy wiersz tabeli. Krótka kreska oznacza, że przednie czujniki Thymio niczego nie wykrywają, ponieważ nic tam nie ma.
3. Spójrz uważnie na Thymio i kliknij przycisk „krok po kroku”.

Pytanie 7:
Jak zmienia się poziom, gdy robot otrzymuje nagrodę lub, przeciwnie, karę? Co oznacza ten poziom?
Oceń odpowiedź.
- Jeśli nagroda jest pozytywna, poziom wzrasta.
- Jeśli wynik jest ujemny, poziom się obniża.
Poziom ten odzwierciedla zdolność Thymio do uzyskiwania pozytywnych nagród. Dokładniej rzecz biorąc, jest on obliczany jako średnia nagród otrzymanych w ciągu ostatniej minuty.
Teraz naciśnij przycisk „Automatycznie”, aby Thymio mógł kontynuować naukę.
Pytanie 8:
Jak zmienia się poziom w trakcie nauki?
Dlaczego? Wyjaśnij:
Poziom wzrasta w trakcie nauki. Thymio otrzymuje bowiem coraz więcej wysokich nagród (zwłaszcza gdy idzie prosto) i coraz mniej kar (ponieważ coraz rzadziej się uderza). W rzeczywistości celem nauki jest właśnie podniesienie poziomu Thymio.
Kary
Podsumowując różne wartości, które pojawiły się na pasku postępu, odnotowano:
100: Gdy Thymio porusza się prosto przed siebie bez żadnych przeszkód, jest to najwyższa wartość.
55: Kiedy Thymio mija bez przeszkód punkt kontrolny.
-50: Thymio wykonuje jedną z wielu „złych” akcji, takich jak podchodzenie do ściany czy cofanie się, gdy przed nim nic nie ma...
Możemy zmienić wysokość kary.
● Otwórz zakładkę „Nagroda” i ustaw wartość kary na niewielką wartość, na przykład 0: zresetuj sztuczną inteligencję i ponownie uruchom proces uczenia się na kilka minut.
Przyjrzyj się zachowaniu Thymio – czy jest bardziej odważny, czy bardziej ostrożny?
Czy uderza w ściany częściej czy rzadziej?
● Ustaw większą karę, na przykład 1,5. Zresetuj ponownie sztuczną inteligencję i uruchom proces uczenia się na kilka minut. To samo pytanie, co poprzednio.
Pytanie 9:
Podsumuj, jak zmienia się zachowanie Thymio w zależności od zmiany wartości kary. Zapisz odpowiedź.
Jeśli kara jest niewielka, Thymio często uderza w ściany, ale staje się coraz śmielszy i swobodnie porusza się po całym pomieszczeniu.
Jeśli kara jest surowa, Thymio rzadziej uderza w ściany, ale staje się bardziej ostrożny i pozostaje w wyznaczonym obszarze.