Sztuczne oko rozpozna, co robisz

Co by było, gdyby kamera bezpieczeństwa nie tylko rejestrowała wideo, ale także rozumiała, co się dzieje?

Czy kamera może rozróżniać rutynowe czynności od potencjalnie niebezpiecznych zachowań w czasie rzeczywistym? Taką przyszłość kształtują naukowcy z Wydziału Inżynierii i Nauk Stosowanych Uniwersytetu Wirginia dzięki swojemu najnowszemu przełomowi: inteligentnemu analizatorowi wideo opartemu na sztucznej inteligencji, który potrafi wykrywać ludzkie działania na nagraniach wideo z niespotykaną dotąd precyzją i inteligencją.

System ten, zwany Semantic and Motion-Aware Spatiotemporal Transformer Network (SMAST), obiecuje szeroką gamę korzyści społecznych, od udoskonalenia systemów nadzoru i poprawy bezpieczeństwa publicznego po umożliwienie bardziej zaawansowanego śledzenia ruchu w opiece zdrowotnej i udoskonalenie sposobu, w jaki autonomiczne pojazdy poruszają się w złożonych środowiskach.

Ta technologia AI otwiera drzwi do wykrywania działań w czasie rzeczywistym w niektórych z najbardziej wymagających środowisk” — powiedział profesor i kierownik Wydziału Inżynierii Elektrycznej i Komputerowej, Scott T. Acton, a także główny badacz projektu. To rodzaj postępu, który może pomóc zapobiegać wypadkom, usprawniać diagnostykę, a nawet ratować życie.

Jak to działa? W swojej istocie SMAST opiera się na sztucznej inteligencji. System opiera się na dwóch kluczowych komponentach, aby wykrywać i rozumieć złożone zachowania ludzkie. Pierwszym z nich jest wielofunkcyjny model selektywnej uwagi, który pomaga AI skupić się na najważniejszych częściach sceny — takich jak osoba lub obiekt — ignorując jednocześnie zbędne szczegóły. Dzięki temu system jest dokładniejszy w identyfikowaniu tego, co się dzieje, na przykład rozpoznaje kogoś rzucającego piłkę, zamiast po prostu poruszać ręką.

Drugą kluczową cechą jest algorytm kodowania położenia 2D uwzględniający ruch, który pomaga AI śledzić, jak rzeczy poruszają się w czasie. Wyobraź sobie oglądanie filmu, w którym ludzie nieustannie zmieniają pozycje — to narzędzie pomaga AI zapamiętać te ruchy i zrozumieć, jak są one ze sobą powiązane. Dzięki integracji tych funkcji SMAST może dokładnie rozpoznawać złożone działania w czasie rzeczywistym, co czyni go bardziej skutecznym w scenariuszach o wysokiej stawce, takich jak nadzór, diagnostyka opieki zdrowotnej lub autonomiczna jazda.

SMAST na nowo definiuje sposób, w jaki maszyny wykrywają i interpretują ludzkie działania. Obecne systemy zmagają się z chaotycznym, nieedytowanym, ciągłym materiałem wideo, często nie rozumiejąc kontekstu zdarzeń. Jednak innowacyjny projekt SMAST pozwala mu uchwycić dynamiczne relacje między ludźmi i obiektami z niezwykłą dokładnością, dzięki samym komponentom AI, które pozwalają mu uczyć się i dostosowywać do danych.

Ten technologiczny skok oznacza, że ​​system AI może identyfikować takie działania, jak człowieka biegnącego przez ulicę, lekarza wykonującego precyzyjną procedurę, a nawet zagrożenie bezpieczeństwa w zatłoczonej przestrzeni. SMAST już przewyższył najlepsze rozwiązania w kluczowych akademickich testach porównawczych, w tym AVA, UCF101-24 i EPIC-Kitchens, ustanawiając nowe standardy dokładności i wydajności.

Wpływ społeczny może być ogromny — powiedział Matthew Korban, adiunkt badawczy w laboratorium Acton pracujący nad projektem. Jesteśmy podekscytowani, widząc, jak ta technologia AI może przekształcić branże, czyniąc systemy oparte na wideo bardziej inteligentnymi i zdolnymi do rozumienia w czasie rzeczywistym.

Projekt był wspierany przez National Science Foundation (NSF).

Źrodło: materiały Uniwersytetu Wirginia, zdjęcie zajawka: Gerd Altmann


Niniejsze badania opierają się na pracy opublikowanej w artykule „ A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection ” w IEEE Transactions on Pattern Analysis and Machine Intelligence. Autorami artykułu są Matthew Korban, Peter Youngs i Scott T. Acton z University of Virginia.

Udostępnij:

Powiązane posty

Zostaw komentarz