Naukowcy z Uniwersytetu Michigan badają możliwości sztucznej inteligencji, opracowując narzędzia, które potrafią rozpoznać, czy szczekanie psa oznacza zabawę, czy agresję.
Te same modele mogą również zbierać inne informacje z wokalizacji zwierząt, takie jak wiek, rasa i płeć zwierzęcia. Z badania przeprowadzonego we współpracy z meksykańskim Narodowym Instytutem Astrofizyki, Optyki i Elektroniki (INAOE) w Puebla wynika, że modele sztucznej inteligencji pierwotnie wytrenowane na ludzkiej mowie można wykorzystać jako punkt wyjścia do szkolenia nowych systemów ukierunkowanych na komunikację zwierząt.
Wyniki zaprezentowano na Wspólnej Międzynarodowej Konferencji na temat Lingwistyki Obliczeniowej, Zasobów Językowych i Ewaluacji.
Wykorzystując modele przetwarzania mowy początkowo wytrenowane na ludzkiej mowie, nasze badania otwierają nowe okno na to, w jaki sposób możemy wykorzystać to, co do tej pory zbudowaliśmy w przetwarzaniu mowy, aby zacząć rozumieć niuanse szczekania psów – powiedziała Janice M. Jenkins, profesor informatyki i inżynierii oraz dyrektor laboratorium sztucznej inteligencji U-M.
„Tak wielu rzeczy jeszcze nie wiemy o zwierzętach, które dzielą z nami ten świat. Postępy w sztucznej inteligencji można wykorzystać do zrewolucjonizowania naszego rozumienia komunikacji między zwierzętami, a nasze odkrycia sugerują, że być może nie będziemy musieli zaczynać od zera”.
Jedną z głównych przeszkód w opracowywaniu modeli sztucznej inteligencji, które mogą analizować wokalizacje zwierząt, jest brak publicznie dostępnych danych. Chociaż istnieje wiele zasobów i możliwości nagrywania ludzkiej mowy, zbieranie takich danych od zwierząt jest trudniejsze.
Oprogramowanie AI opracowane przez Radę Mihalceę i Humberto Péreza-Espinosa może rozpoznać, czy szczekanie psa jest zabawne czy agresywne, a także określić rasę, płeć i wiek.
Odgłosy zwierząt są logistycznie znacznie trudniejsze do pozyskania i nagrania” – powiedział Artem Abzaliev, główny autor i doktorant UM w dziedzinie informatyki i inżynierii. „Muszą być pasywnie rejestrowane na wolności lub, w przypadku zwierząt domowych, za zgodą właścicieli.
Z powodu braku użytecznych danych techniki analizy wokalizacji psów okazały się trudne w opracowaniu, a te, które istnieją, są ograniczone brakiem materiałów szkoleniowych. Naukowcy pokonali te wyzwania, zmieniając przeznaczenie istniejącego modelu, który pierwotnie został zaprojektowany do analizy ludzkiej mowy.
Takie podejście umożliwiło naukowcom wykorzystanie solidnych modeli, które stanowią podstawę różnych technologii głosowych, których obecnie używamy, w tym zamiany głosu na tekst i tłumaczenia językowego. Modele te są przeszkolone w zakresie rozróżniania niuansów w ludzkiej mowie, takich jak ton, ton i akcent, oraz konwertowania tych informacji do formatu, którego komputer może użyć do zidentyfikowania wypowiadanych słów, rozpoznania osoby mówiącej i nie tylko.
Te modele są w stanie uczyć się i kodować niezwykle złożone wzorce ludzkiego języka i mowy – powiedział Abzaliev. Chcieliśmy sprawdzić, czy moglibyśmy wykorzystać tę umiejętność do rozpoznawania i interpretowania szczekania psów.
Naukowcy wykorzystali zbiór danych zawierający wokalizacje psów zarejestrowane od 74 psów różnej rasy, wieku i płci, w różnych kontekstach. Humberto Pérez-Espinosa, współpracownik w INAOE, kierował zespołem, który zebrał zbiór danych. Następnie Abzaliev wykorzystał nagrania do zmodyfikowania modelu uczenia maszynowego – rodzaju algorytmu komputerowego, który identyfikuje wzorce w dużych zbiorach danych. Zespół wybrał model reprezentacji mowy o nazwie Wav2Vec2, który pierwotnie został wyszkolony na danych dotyczących mowy ludzkiej.
Dzięki temu modelowi badacze byli w stanie wygenerować reprezentacje danych akustycznych zebranych od psów i zinterpretować te reprezentacje. Odkryli, że Wav2Vec2 nie tylko pomyślnie wykonał cztery zadania klasyfikacyjne; wyprzedził także inne modele wyszkolone specjalnie na podstawie danych o szczekaniu psów, osiągając dokładność do 70%.
Po raz pierwszy zastosowano techniki zoptymalizowane pod kątem mowy ludzkiej, aby pomóc w dekodowaniu komunikacji zwierząt – stwierdziła Mihalcea. Nasze wyniki pokazują, że dźwięki i wzorce pochodzące z ludzkiej mowy mogą służyć jako podstawa do analizy i zrozumienia wzorców akustycznych innych dźwięków, takich jak wokalizacje zwierząt.
Oprócz ustalenia modeli mowy ludzkiej jako przydatnego narzędzia w analizie komunikacji zwierząt – co może przynieść korzyści biologom, behawiorystom zwierząt i nie tylko – badanie to ma ważne implikacje dla dobrostanu zwierząt. Zrozumienie niuansów psiej wokalizacji mogłoby znacznie poprawić sposób, w jaki ludzie interpretują emocjonalne i fizyczne potrzeby psów oraz na nie reagują, poprawiając w ten sposób opiekę nad psami i zapobiegając potencjalnie niebezpiecznym sytuacjom – twierdzą naukowcy.
Źródło: materiały Uniwersytetu Michigan, zdjęcie zajawka: rawpixel.com, zdjęcie w tekście dzięki uprzejmości Artema Abzalieva
Zostaw komentarz
You must be logged in to post a comment.