Auto z chatem. Autonomiczne

Wyobraź sobie, że po prostu mówisz do swojego pojazdu: „Spieszę się”, a on automatycznie poprowadzi Cię najwydajniejszą trasą do miejsca, do którego musisz dotrzeć.

Inżynierowie z Uniwersytetu Purdue odkryli, że autonomiczny pojazd (AV) może to zrobić z pomocą ChatGPT lub innych chatbotów, których działanie jest możliwe dzięki algorytmom sztucznej inteligencji nazywanym dużymi modelami językowymi.

Badanie, którego wyniki zostały zaprezentowane 25 września na 27 Międzynarodowej Konferencji IEEE na temat Inteligentnych Systemów Transportowych, może być jednym z pierwszych eksperymentów sprawdzających, jak dobrze prawdziwy pojazd autonomiczny potrafi używać dużych modeli językowych do interpretowania poleceń wydawanych przez pasażera i odpowiednio do nich prowadzić.

Ziran Wang, adiunkt w Purdue’s Lyles School of Civil and Construction Engineering, który kierował badaniem, uważa, że ​​aby pojazdy mogły być w pełni autonomiczne, będą musiały rozumieć wszystko, co wydają pasażerowie, nawet jeśli polecenie jest domyślne. Na przykład taksówkarz wiedziałby, czego potrzebujesz, gdy powiesz, że się spieszysz, bez konieczności określania trasy, którą kierowca powinien obrać, aby uniknąć korków. Chociaż dzisiejsze AV mają funkcje, które pozwalają na komunikację z nimi, wymagają one, abyś był bardziej przejrzysty, niż byłoby to konieczne, gdybyś rozmawiał z człowiekiem. Natomiast duże modele językowe mogą interpretować i udzielać odpowiedzi w sposób bardziej ludzki, ponieważ są trenowane do wyciągania relacji z ogromnych ilości danych tekstowych i ciągłego uczenia się w czasie. Konwencjonalne systemy w naszych pojazdach mają interfejs użytkownika, w którym musisz naciskać przyciski, aby przekazać to, czego chcesz, lub system rozpoznawania dźwięku, który wymaga od ciebie bardzo wyraźnego mówienia, aby twój pojazd mógł cię zrozumieć” — powiedział Wang. „Ale siła dużych modeli językowych polega na tym, że mogą one bardziej naturalnie rozumieć wszystkie rodzaje rzeczy, które mówisz. Nie sądzę, aby jakikolwiek inny istniejący system mógł to zrobić.

Prowadzenie nowego rodzaju badań

W tym badaniu duże modele językowe nie kierowały pojazdem AV. Zamiast tego wspomagały jazdę pojazdu AV, wykorzystując jego istniejące funkcje. Wang i jego studenci odkryli, że dzięki integracji tych modeli pojazd AV nie tylko lepiej rozumie swojego pasażera, ale także personalizuje jazdę zgodnie z jego zadowoleniem.

Uczeń siedzi na fotelu kierowcy pojazdu, z rękami na kolanach i otoczony kilkoma gadżetami podłączonymi do wnętrza pojazdu
Student Can Cui siada do jazdy w testowym pojeździe autonomicznym. Mikrofon w konsoli odbiera jego polecenia, które interpretują duże modele językowe w chmurze. Pojazd jedzie zgodnie z instrukcjami generowanymi przez duże modele językowe.

Przed rozpoczęciem eksperymentów naukowcy trenowali ChatGPT za pomocą poleceń, które wahały się od bardziej bezpośrednich poleceń (np. „Proszę jechać szybciej”) do bardziej pośrednich poleceń (np. „W tej chwili czuję się trochę chory lokomocyjnie”). Gdy ChatGPT uczył się, jak reagować na te polecenia, naukowcy podawali swoim dużym modelom językowym parametry do naśladowania, wymagając, aby uwzględniały przepisy ruchu drogowego, warunki drogowe, pogodę i inne informacje wykrywane przez czujniki pojazdu, takie jak kamery oraz wykrywanie i określanie zasięgu światła.

Następnie badacze udostępnili te duże modele językowe za pośrednictwem chmury pojazdowi eksperymentalnemu z autonomią czwartego poziomu, zgodnie z definicją SAE International. Poziom czwarty jest o jeden poziom od tego, co branża uważa za w pełni autonomiczny pojazd.

Gdy system rozpoznawania mowy pojazdu wykrył polecenie od pasażera podczas eksperymentów, duże modele językowe w chmurze uzasadniały polecenie za pomocą parametrów zdefiniowanych przez badaczy. Następnie te modele generowały instrukcje dla systemu drive-by-wire pojazdu — który jest połączony z przepustnicą, hamulcami, biegami i układem kierowniczym — dotyczące sposobu jazdy zgodnie z tym poleceniem.

W ramach niektórych eksperymentów zespół Wanga testował również zainstalowany w systemie moduł pamięci, który umożliwiał dużym modelom językowym przechowywanie danych na temat historycznych preferencji pasażerów i uczenie się, jak uwzględniać je w odpowiedzi na polecenie.

Naukowcy przeprowadzili większość eksperymentów na poligonie doświadczalnym w Columbus w stanie Indiana, który kiedyś był pasem startowym lotniska. To środowisko pozwoliło im bezpiecznie przetestować reakcje pojazdu na polecenia pasażera podczas jazdy z prędkością autostradową na pasie startowym i obsługi dwukierunkowych skrzyżowań. Sprawdzili również, jak dobrze pojazd zaparkował zgodnie z poleceniami pasażera na parkingu stadionu Ross-Ade na Uniwersytecie Purdue.

Uczestnicy badania korzystali zarówno z poleceń, których nauczyły się duże modele językowe, jak i z poleceń, które były nowe podczas jazdy w pojeździe. Na podstawie odpowiedzi na ankietę po przejażdżkach uczestnicy wyrazili niższy poziom dyskomfortu związanego z decyzjami podejmowanymi przez AV w porównaniu z danymi dotyczącymi tego, jak ludzie zwykle czują się podczas jazdy w AV czwartego poziomu bez pomocy dużych modeli językowych.

Student i profesor po obu stronach otwartego bagażnika pojazdu przyglądają się urządzeniom elektronicznym i okablowaniu zainstalowanym wewnątrz
Bagażnik testowego pojazdu autonomicznego zawiera system drive-by-wire, który pozwala dużym modelom językowym w chmurze pomagać pojazdowi w reagowaniu na polecenia pasażera.

Zespół porównał również wydajność pojazdu autonomicznego z wartościami bazowymi utworzonymi na podstawie danych na temat tego, co ludzie uznaliby za bezpieczną i komfortową jazdę, na przykład ile czasu pojazd daje na reakcję, aby uniknąć zderzenia tylnego, i jak szybko pojazd przyspiesza i zwalnia. Naukowcy odkryli, że pojazd autonomiczny w tym badaniu przewyższył wszystkie wartości bazowe, używając dużych modeli językowych do prowadzenia pojazdu, nawet gdy odpowiadał na polecenia, których modele jeszcze się nie nauczyły.

Przyszłe kierunki

Duże modele językowe w tym badaniu potrzebowały średnio 1,6 sekundy na przetworzenie polecenia pasażera, co jest uważane za akceptowalne w scenariuszach, w których czas nie jest krytyczny, ale należy to poprawić w sytuacjach, w których AV musi reagować szybciej, powiedział Wang. Jest to problem, który ogólnie dotyczy dużych modeli językowych i jest rozwiązywany przez przemysł, jak również przez badaczy uniwersyteckich.

Chociaż nie jest to przedmiotem tego badania, wiadomo, że duże modele językowe, takie jak ChatGPT, są podatne na „halucynacje”, co oznacza, że ​​mogą błędnie interpretować coś, czego się nauczyły i reagować w niewłaściwy sposób. Badanie Wanga przeprowadzono w konfiguracji z mechanizmem fail-safe, który pozwalał uczestnikom bezpiecznie jeździć, gdy duże modele językowe źle rozumiały polecenia. Modele poprawiały swoje zrozumienie podczas jazdy uczestnika, ale halucynacje pozostają problemem, który należy rozwiązać, zanim producenci pojazdów rozważą wdrożenie dużych modeli językowych do pojazdów autonomicznych.

Producenci pojazdów musieliby również przeprowadzić znacznie więcej testów z dużymi modelami językowymi oprócz badań przeprowadzonych przez badaczy uniwersyteckich. Dodatkowo wymagane byłoby zatwierdzenie regulacyjne w celu zintegrowania tych modeli z elementami sterowania AV, aby mogły one faktycznie prowadzić pojazd, powiedział Wang.

Tymczasem Wang i jego studenci kontynuują eksperymenty, które mogą pomóc branży w badaniu możliwości dodawania dużych modeli językowych do pojazdów autonomicznych.

Od czasu badania ChatGPT, naukowcy ocenili inne publiczne i prywatne chatboty oparte na dużych modelach językowych, takie jak Gemini Google i seria asystentów Llama AI Meta. Do tej pory widzieli, że ChatGPT najlepiej radzi sobie ze wskaźnikami bezpiecznej i efektywnej czasowo jazdy w AV. Opublikowane wyniki są w przygotowaniu.

Kolejnym krokiem jest sprawdzenie, czy duże modele językowe każdego AV mogłyby się ze sobą komunikować, na przykład w celu pomocy AV w określeniu, który powinien jechać pierwszy na skrzyżowaniu z czterema drogami szybkiego ruchu. Laboratorium Wanga rozpoczyna również projekt mający na celu zbadanie wykorzystania dużych modeli widzenia, aby pomóc AV w jeździe w ekstremalnych warunkach zimowych, powszechnych na całym Środkowym Zachodzie. Modele te są podobne do dużych modeli językowych, ale trenowane na obrazach, a nie na tekście. Projekt będzie realizowany przy wsparciu Centrum Transportu Połączonego i Zautomatyzowanego (CCAT) , które jest finansowane przez Biuro Badań, Rozwoju i Technologii Departamentu Transportu USA za pośrednictwem programu University Transportation Centers. Purdue jest jednym z partnerów uniwersyteckich CCAT.

Eksperymenty przeprowadzone w laboratorium Wanga nad integracją dużych modeli językowych w AV były wspierane przez darowiznę od Toyota Motor North America. Wang jest zastępcą dyrektora Instytutu Kontroli, Optymalizacji i Sieci na Purdue, który jest powiązany z Instytutem Sztucznej Inteligencji Fizycznej na tym uniwersytecie , inicjatywą Purdue Comuputers.

Źródło: materiały University of Purdue, zdjęcia w tekście: Purdue University/John Underwood (3)

Udostępnij:

Powiązane posty

Zostaw komentarz