Jak wynika z badań interdyscyplinarnego zespołu z Instytutu Penn State, nowatorskie, inspirowane działalnością człowieka podejście do szkolenia systemów sztucznej inteligencji (AI) w zakresie identyfikacji obiektów i nawigacji w ich otoczeniu może przygotować grunt pod rozwój bardziej zaawansowanych systemów sztucznej inteligencji do badania ekstremalnych środowisk lub odległych światów.
W pierwszych dwóch latach życia dzieci doświadczają dość wąskiego zestawu obiektów i twarzy, ale z wielu różnych punktów widzenia i w różnych warunkach oświetleniowych. Zainspirowani tą spostrzeżeniem dotyczącym rozwoju, badacze wprowadzili nowe podejście do uczenia maszynowego, które wykorzystuje informacje o położeniu przestrzennym do skuteczniejszego szkolenia systemów wizualnych AI. Odkryli, że modele AI wyszkolone w oparciu o nową metodę były lepsze od modeli podstawowych nawet o 14,99%. O swoich odkryciach poinformowali w majowym numerze czasopisma Patterns.
Obecne podejścia do sztucznej inteligencji wykorzystują do celów szkoleniowych ogromne zbiory losowo przemieszanych zdjęć z Internetu. Z kolei nasza strategia opiera się na psychologii rozwojowej, która bada, jak dzieci postrzegają świat – powiedziała Lizhen Zhu, główna autorka i doktorantka w Wyższa Szkoła Informatyki i Technologii w Penn State.
Naukowcy opracowali nowy algorytm uczenia się kontrastowego, który jest rodzajem metody samonadzorowanego uczenia się, w ramach której system sztucznej inteligencji uczy się wykrywać wzorce wizualne, aby określić, kiedy dwa obrazy są pochodnymi tego samego obrazu podstawowego, co daje w rezultacie dodatnią parę. Algorytmy te jednak często traktują obrazy tego samego obiektu wykonane z różnych perspektyw jako oddzielne całości, a nie jako pary dodatnie. Zdaniem naukowców uwzględnienie danych środowiskowych, w tym lokalizacji, pozwala systemowi sztucznej inteligencji przezwyciężyć te wyzwania i wykryć pary dodatnie niezależnie od zmian położenia lub obrotu kamery, kąta lub stanu oświetlenia oraz długości ogniskowej lub powiększenia.
Stawiamy hipotezę, że wizualne uczenie się niemowląt zależy od percepcji lokalizacji. Aby wygenerować zbiór danych zawierający informacje czasoprzestrzenne, stworzyliśmy wirtualne środowiska na platformie ThreeDWorld, która jest interaktywnym środowiskiem symulacji fizycznej 3D o wysokiej wierności. Pozwoliło to, że możemy manipulować i mierzyć położenie kamer obserwacyjnych, tak jakby dziecko spacerowało po domu – dodał Zhu.
Naukowcy stworzyli trzy środowiska symulacyjne – House14K, House100K i Apartment14K, przy czym „14K” i „100K” odnoszą się do przybliżonej liczby przykładowych zdjęć wykonanych w każdym środowisku. Następnie trzykrotnie przetestowali podstawowe modele i modele uczenia się kontrastowego z nowym algorytmem w symulacjach, aby sprawdzić, jak dobrze każdy z nich klasyfikuje obrazy. Zespół odkrył, że modele wyszkolone na podstawie algorytmu radziły sobie lepiej z modelami podstawowymi w różnych zadaniach. Na przykład w przypadku zadania polegającego na rozpoznaniu pokoju w wirtualnym mieszkaniu model rozszerzony wykonał średnio 99,35%, co stanowi poprawę o 14,99% w porównaniu z modelem podstawowym. Te nowe zbiory danych są dostępne dla innych naukowców do wykorzystania za pośrednictwem witryny www.child-view.com .
Modelom zawsze trudno jest uczyć się w nowym środowisku z małą ilością danych. Nasza praca stanowi jedną z pierwszych prób bardziej energooszczędnego i elastycznego szkolenia w zakresie sztucznej inteligencji z wykorzystaniem treści wizualnych – powiedział James Wang, wybitny profesor nauk informatycznych i technologii oraz doradca Zhu.
Zdaniem naukowców badanie ma wpływ na przyszły rozwój zaawansowanych systemów sztucznej inteligencji, które mają na celu nawigację i uczenie się w nowych środowiskach.
To podejście byłoby szczególnie korzystne w sytuacjach, gdy zespół autonomicznych robotów o ograniczonych zasobach musi nauczyć się poruszać w zupełnie nieznanym środowisku – powiedział Wang. Aby utorować drogę przyszłym aplikacjom, planujemy udoskonalić nasz model, aby lepiej wykorzystać informacje przestrzenne i uwzględnić bardziej zróżnicowane środowiska.
Wkład w badania wnieśli także współpracownicy z Wydziału Psychologii oraz Wydziału Informatyki i Inżynierii stanu Penn State. Prace te były wspierane przez amerykańską Narodową Fundację Naukową oraz Instytut Nauk Obliczeniowych i Danych w Penn State.
Źródło: materiały Instytutu Penn State, zdjęcie zajawka: Karolina Grabowska/Pexels
Zostaw komentarz
You must be logged in to post a comment.