Spójrz, a usłyszysz

Popatrz na osobę, którą chcesz wyłapać w tłumie gadających. Twoje słuchawki będą rejestrować tylko ją

Zespół Uniwersytetu Waszyngtońskiego opracował system sztucznej inteligencji, który pozwala użytkownikowi noszącemu słuchawki patrzeć na mówiącą osobę przez trzy do pięciu sekund, aby ją „zarejestrować”. I potem słyszeć już tylko ją, nawet w tłumie.

Słuchawki z redukcją szumów bardzo dobrze radzą sobie z tworzeniem pustej przestrzeni dźwiękowej. Jednak wymazanie pewnych dźwięków z otoczenia użytkownika nadal stanowi wyzwanie dla badaczy. Na przykład najnowsza edycja słuchawek AirPods Pro firmy Apple automatycznie dostosowuje poziom dźwięku do użytkownika – na przykład wykrywając, kiedy prowadzi rozmowę – ale użytkownik ma niewielką kontrolę nad tym, kogo i kiedy to ma słuchać.

Nowy system o nazwie „Target Speech Hearing” anuluje wszystkie inne dźwięki z otoczenia i odtwarza w czasie rzeczywistym tylko głos wskazanego mówcy, nawet jeśli słuchacz porusza się w hałaśliwych miejscach i nie jest już zwrócony twarzą do mówiącego.

Zespół przedstawił swoje ustalenia w Honolulu podczas konferencji ACM CHI na temat czynników ludzkich w systemach komputerowych. Kod urządzenia sprawdzającego koncepcję jest dostępny dla innych osób, na których można budować. System nie jest dostępny komercyjnie.

Obecnie myślimy o sztucznej inteligencji jako o internetowych chatbotach, które odpowiadają na pytania – powiedział starszy autor Shyam Gollakota, profesor UW w Szkole Informatyki i Inżynierii im. Paula G. Allena. – Ale w tym projekcie opracowujemy sztuczną inteligencję, aby modyfikować percepcję słuchową każdej osoby noszącej słuchawki, biorąc pod uwagę jej preferencje. Dzięki naszym urządzeniom możesz teraz wyraźnie słyszeć pojedynczego mówcę, nawet jeśli znajdujesz się w hałaśliwym otoczeniu, gdzie rozmawia wiele innych osób.

Aby skorzystać z systemu, osoba nosząca gotowe słuchawki z mikrofonem naciska przycisk, kierując głowę w stronę mówiącej osoby. Fale dźwiękowe głosu tego mówcy powinny wówczas dotrzeć jednocześnie do mikrofonów po obu stronach zestawu słuchawkowego; margines błędu wynosi 16 stopni. Słuchawki wysyłają ten sygnał do wbudowanego komputera, gdzie opracowane przez zespół oprogramowanie do uczenia maszynowego uczy się wzorców wokalnych żądanego mówcy. System wychwytuje głos mówiącego i odtwarza go słuchaczowi, nawet gdy para się porusza. Zdolność systemu do skupiania się na zarejestrowanym głosie poprawia się w miarę kontynuowania mówienia przez mówiącego, dzięki czemu system otrzymuje więcej danych szkoleniowych.

Zespół przetestował swój system na 21 osobach, które oceniły czystość głosu zarejestrowanego mówcy prawie dwukrotnie wyżej niż średnio niefiltrowanego dźwięku.

Praca ta opiera się na wcześniejszych badaniach zespołu dotyczących „słyszenia semantycznego”, które pozwoliły użytkownikom wybrać określone klasy dźwięków – takie jak ptaki lub głosy – które chcieli usłyszeć, i anulować inne dźwięki w otoczeniu.

Obecnie system TSH może zarejestrować tylko jednego mówcę na raz i jest w stanie zarejestrować mówcę tylko wtedy, gdy z tego samego kierunku, co głos docelowego mówcy, nie dochodzi inny głośny głos. Jeśli użytkownik nie jest zadowolony z jakości dźwięku, może przeprowadzić ponowną rejestrację głośnika, aby poprawić jego klarowność.

Zespół pracuje nad rozszerzeniem systemu na słuchawki douszne i aparaty słuchowe w przyszłości.

Badania zostały sfinansowane przez nagrodę Moore Inventor Fellow, Thomas J. Cabel Endowed Professorship oraz fundusz UW CoMotion Innovation Gap Fund.

Źródło: materiały Uniwersytetu Waszyngtońskiego, zdjęcie zajawka: Freepik

Udostępnij:

Powiązane posty

Zostaw komentarz