Model doskonale rozumie język, co pozwala mu dokładnie interpretować podpowiedzi i tworzyć fascynujące postacie wyrażające żywe emocje. Sora może także utworzyć wiele ujęć w jednym wygenerowanym filmie, które wiernie oddają charakter i styl wizualny. Sora to model OpenAI, która przekazała go testerom, aby ocenić krytyczne obszary pod kątem szkód i zagrożeń.
– Zapewniamy również dostęp wielu artystom wizualnym, projektantom i filmowcom, aby uzyskać opinie na temat tego, jak ulepszyć model, aby był jak najbardziej przydatny dla kreatywnych profesjonalistów – informuje firma.
Sora jest w stanie generować złożone sceny z wieloma postaciami, określonymi rodzajami ruchu i dokładnymi szczegółami obiektu i tła. Model rozumie nie tylko to, o co użytkownik prosił w podpowiedzi, ale także to, jak te rzeczy istnieją w świecie fizycznym.
Model doskonale rozumie język, co pozwala mu dokładnie interpretować podpowiedzi i tworzyć fascynujące postacie wyrażające żywe emocje. Sora może także utworzyć wiele ujęć w jednym wygenerowanym filmie, które wiernie oddają charakter i styl wizualny.
Obecny model ma słabe strony. Może mieć trudności z dokładnym symulowaniem fizyki złożonej sceny i może nie rozumieć konkretnych przypadków przyczyny i skutku. Na przykład osoba może ugryźć ciasteczko, ale potem ciasteczko może nie mieć śladu ugryzienia.
Model może także mylić szczegóły przestrzenne podpowiedzi, np. pomieszanie lewej i prawej strony, a także może mieć trudności z precyzyjnym opisem zdarzeń zachodzących w czasie, np. podążaniem określoną trajektorią kamery.
Przed udostępnieniem Sory w produktach OpenAI podejmie kilka ważnych kroków związanych z bezpieczeństwem. Współpracuje z czerwonymi członkami zespołu — ekspertami dziedzinowymi w takich obszarach jak dezinformacja, treści nienawistne i uprzedzenia — którzy będą kontradyktoryjnie testować model.
Tworzy także narzędzia pomagające wykrywać wprowadzające w błąd treści, takie jak klasyfikator wykrywania, który potrafi określić, kiedy film został wygenerowany przez Sorę. Planuje uwzględnić metadane C2PA w przyszłości, jeśli wdrożymy model w produkcie OpenAI.
Oprócz opracowywania nowych technik w celu przygotowania do wdrożenia, wykorzystujemy istniejące metody bezpieczeństwa , które firma opracowała dla swoich produktów, korzystających z DALL·E 3, które mają zastosowanie również do Sora.
Na przykład po wejściu do produktu OpenAI klasyfikator tekstu sprawdzi i odrzuci monity o wprowadzenie tekstu, które naruszają nasze zasady użytkowania, np. te, które wymagają skrajnej przemocy, treści seksualnych, obrazów nienawistnych, podobizny gwiazd lub adresu IP innych osób. OpenAI pracowała także niezawodne klasyfikatory obrazów, które służą do sprawdzania klatek każdego wygenerowanego filmu, aby upewnić się, że jest on zgodny z naszymi zasadami użytkowania, zanim zostanie wyświetlony użytkownikowi.
– Będziemy angażować decydentów, nauczycieli i artystów na całym świecie, aby zrozumieć ich obawy i zidentyfikować pozytywne przypadki zastosowania tej nowej technologii. Pomimo szeroko zakrojonych badań i testów nie jesteśmy w stanie przewidzieć wszystkich korzystnych sposobów, w jakie ludzie będą korzystać z naszej technologii, ani wszystkich sposobów, w jakie będą ją nadużywać. Dlatego wierzymy, że uczenie się na podstawie rzeczywistych zastosowań jest kluczowym elementem tworzenia i wypuszczania na rynek coraz bezpieczniejszych systemów sztucznej inteligencji z biegiem czasu – zdradza OpenAI.
Sora to model dyfuzyjny, który generuje wideo, zaczynając od takiego, które wygląda jak szum statyczny, i stopniowo go przekształca, usuwając szum w wielu etapach. Jest w stanie generować całe filmy na raz lub wydłużać wygenerowane filmy, aby je wydłużyć. Dając modelowi możliwość przewidywania wielu klatek jednocześnie, OpenAI rozwiązała trudny problem polegający na zapewnieniu, że obiekt pozostaje taki sam, nawet jeśli chwilowo zniknie z pola widzenia
Podobnie jak modele GPT, Sora wykorzystuje architekturę transformatorową, odblokowując doskonałą wydajność skalowania.
– Reprezentujemy filmy i obrazy jako zbiory mniejszych jednostek danych zwanych łatami, z których każdy jest podobny do tokena w GPT. Ujednolicając sposób, w jaki reprezentujemy dane, możemy trenować transformatory dyfuzyjne na szerszym zakresie danych wizualnych niż było to możliwe wcześniej, obejmującym różne czasy trwania, rozdzielczości i współczynniki kształtu – wyjaśnia OpenAI.
Sora opiera się na wcześniejszych badaniach nad modelami DALL·E i GPT. Wykorzystuje technikę recaptioningu z DALL·E 3, która polega na generowaniu wysoce opisowych podpisów dla wizualnych danych treningowych. Dzięki temu model może wierniej podążać za instrukcjami tekstowymi użytkownika zawartymi w wygenerowanym filmie.
Oprócz możliwości wygenerowania wideo wyłącznie na podstawie instrukcji tekstowych, model może pobrać istniejący nieruchomy obraz i wygenerować z niego wideo, animując zawartość obrazu z dokładnością i dbałością o najmniejsze szczegóły. Model może także wziąć istniejący film i go rozbudować lub uzupełnić brakujące klatki. Zobaczcie sami.
Zdjęcie zajawka: Sora OpenAI
Zostaw komentarz
You must be logged in to post a comment.