Większość użytkowników słuchawek redukujących hałas wie, że słyszenie odpowiedniego dźwięku we właściwym czasie może mieć kluczowe znaczenie. Ktoś może chcieć wymazać klaksony samochodowe podczas pracy w pomieszczeniach, ale nie podczas spaceru po ruchliwych ulicach. Jednak ludzie nie mogą wybrać, jakie dźwięki będą tłumione przez słuchawki. Będzie inaczej?
Zespół kierowany przez naukowców z Uniwersytetu Waszyngtońskiego opracował algorytmy głębokiego uczenia, które pozwalają użytkownikom w czasie rzeczywistym wybierać, które dźwięki będą filtrowane w słuchawkach. Zespół nazywa ten system „słyszeniem semantycznym”. Słuchawki przesyłają strumieniowo przechwycony dźwięk do podłączonego smartfona, co powoduje wyciszenie wszystkich dźwięków otoczenia. Za pomocą poleceń głosowych lub aplikacji na smartfona użytkownicy słuchawek mogą wybrać dźwięki spośród 20 klas, które chcą włączyć, takie jak syreny, płacz dziecka, mowa, odkurzacze i ćwierkanie ptaków. Przez słuchawki będą odtwarzane tylko wybrane dźwięki.
Zespół przedstawił swoje ustalenia 1 listopada na Uniwersytecie UIST ’23 w San Francisco. W przyszłości badacze planują wypuścić komercyjną wersję systemu.
– Zrozumienie, jak brzmi ptak i wyodrębnienie go ze wszystkich innych dźwięków w otoczeniu, wymaga inteligencji działającej w czasie rzeczywistym, której nie zapewniają dzisiejsze słuchawki z redukcją szumów – powiedział starszy autor Shyam Gollakota, profesor UW w Paul G. Allen School. – Wyzwanie polega na tym, że dźwięki, które słyszą użytkownicy słuchawek, muszą być zsynchronizowane ze zmysłami wzroku. Nie słychać czyjegoś głosu dwie sekundy po tym, jak z tobą rozmawia. Oznacza to, że algorytmy neuronowe muszą przetwarzać dźwięki w czasie krótszym niż jedna setna sekundy.
Z powodu braku czasu semantyczny aparat słuchowy musi przetwarzać dźwięki na urządzeniu takim, jak podłączony smartfon, a nie na bardziej niezawodnych serwerach w chmurze. Ponadto, ponieważ dźwięki z różnych kierunków docierają do uszu ludzi w różnym czasie, system musi zachować te opóźnienia i inne sygnały przestrzenne, aby ludzie mogli nadal w znaczący sposób odbierać dźwięki w swoim otoczeniu.
Testowany w środowiskach takich jak biura, ulice i parki, system był w stanie wydobyć syreny, ćwierkanie ptaków, alarmy i inne dźwięki celów, usuwając jednocześnie cały inny hałas ze świata rzeczywistego. Kiedy 22 uczestników oceniło moc wyjściową systemu audio pod kątem docelowego dźwięku, stwierdziło, że średnio jakość uległa poprawie w porównaniu z oryginalnym nagraniem.
W niektórych przypadkach system miał trudności z rozróżnieniem dźwięków mających wiele wspólnych właściwości, takich jak muzyka wokalna i mowa ludzka. Naukowcy zauważają, że przeszkolenie modeli w oparciu o więcej danych ze świata rzeczywistego może poprawić te wyniki.
Dodatkowymi współautorami artykułu byli Bandhav Veluri i Malek Itani, obaj doktoranci UW w Allen School; Justin Chan, który ukończył te badania jako doktorant w Allen School, a obecnie studiuje na Uniwersytecie Carnegie Mellon; oraz Takuya Yoshioka, dyrektor ds. badań w AssemblyAI.
Źródło: materiały Uniwersytetu Waszyngtońskiego, zdjęcie zajawka: rawpixel.com
Zostaw komentarz
You must be logged in to post a comment.