W ciągu trzydziestu lat, odkąd po raz pierwszy udostępniono ją w domenie publicznej, sieć WWW stała się niezwykle skomplikowanym i dynamicznym systemem. Ponieważ jednak funkcje Internetu są obecnie tak integralną częścią dobrobytu społeczeństwa, jego złożoność znacznie utrudnia nawigację.
Obecnie dostępne są miliardy witryn internetowych ułatwiających dostęp do informacji lub komunikację z innymi, a wykonanie wielu zadań w Internecie może wymagać kilkunastu kroków. Dlatego Yu Su, współautorka badania i adiunkt informatyki i inżynierii w Ohio State, stwierdziła, że ich praca, która wykorzystuje informacje pobrane z działających witryn do tworzenia agentów internetowych – internetowych pomocników AI – jest krokiem w kierunku świata mniej zagmatwanego.
– Niektórym osobom, zwłaszcza niepełnosprawnym, przeglądanie Internetu nie jest łatwe – stwierdził Su. – W naszym codziennym życiu i pracy w coraz większym stopniu opieramy się na świecie komputerów, ale pojawia się coraz więcej barier w tym dostępie, co w pewnym stopniu pogłębia dysproporcje.
Wykorzystując możliwości dużych modeli językowych agent działa podobnie do tego, jak zachowują się ludzie podczas przeglądania sieci. Zespół ze stanu Ohio wykazał, że ich model jest w stanie zrozumieć układ i funkcjonalność różnych witryn internetowych, wykorzystując jedynie zdolność do przetwarzania i przewidywania języka.
Badacze rozpoczęli ten proces od stworzenia Mind2Web, pierwszego zbioru danych dla uniwersalnych agentów internetowych. Chociaż poprzednie wysiłki zmierzające do zbudowania agentów sieciowych skupiały się na witrynach symulowanych zabawkami, Mind2Web w pełni uwzględnia złożoną i dynamiczną naturę witryn internetowych w świecie rzeczywistym i podkreśla zdolność agenta do uogólniania na zupełnie nowe witryny, których nigdy wcześniej nie widział. Su stwierdziła, że ich sukces w dużej mierze wynika ze zdolności ich agenta do radzenia sobie z ciągle rozwijającą się krzywą uczenia się w Internecie. Zespół wykonał ponad 2000 zadań o charakterze otwartym ze 137 różnych witryn internetowych, które następnie wykorzystał do przeszkolenia agenta.
Do jego zadań należało rezerwowanie międzynarodowych lotów w jedną stronę i w obie strony, śledzenie kont gwiazd na Twitterze, przeglądanie filmów komediowych z lat 1992–2017 transmitowanych w serwisie Netflix, a nawet planowanie testów wiedzy o samochodach w DMV. Wiele zadań było bardzo złożonych — na przykład rezerwacja jednego z międzynarodowych lotów wykorzystanych w modelu wymagała 14 działań. Taka niewymagająca wysiłku wszechstronność pozwala na zróżnicowanie zasięgu w wielu witrynach internetowych i otwiera nowy krajobraz dla przyszłych modeli, które mogą eksplorować i uczyć się w sposób autonomiczny, powiedział Su.
– Zrobienie czegoś takiego stało się możliwe dopiero dzięki niedawnemu rozwojowi dużych modeli językowych, takich jak ChatGPT – powiedział Su. Odkąd chatbot stał się publiczny w listopadzie 2022 r., miliony użytkowników używa go do automatycznego generowania treści, od poezji i dowcipów po porady kulinarne i diagnozy medyczne.
Mimo to, ponieważ jedna witryna internetowa może zawierać tysiące nieprzetworzonych elementów HTML, dostarczanie tak dużej ilości informacji do jednego dużego modelu językowego byłoby zbyt kosztowne. Aby wypełnić tę lukę, w badaniu wprowadzono również platformę o nazwie MindAct, dwutorowy agent, który do realizacji tych zadań wykorzystuje zarówno małe, jak i duże modele językowe. Zespół odkrył, że dzięki zastosowaniu tej strategii MindAct znacznie przewyższa inne popularne strategie modelowania i jest w stanie zrozumieć różne koncepcje na przyzwoitym poziomie.
Badania były wspierane przez National Science Foundation, US Army Research Lab i Ohio Supercomputer Center. Innymi współautorami byli Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang i Huan Sun, wszyscy ze stanu Ohio.
Źródło: materiały Ohio State University, zdjęcie zajawka: rawpixel.com
Zostaw komentarz
You must be logged in to post a comment.