Kiedy algorytmy zaczynają „przewidywać” rozwój wydarzeń na nagraniach wideo, użytkownicy nieświadomie zaczynają traktować je jako okno na przyszłość. Jednak nowy benchmark WorldReasonBench pokazuje, że za zewnętrznym realizmem często kryje się powierzchowne rozumienie związków przyczynowo-skutkowych.
WorldReasonBench to zestaw ludzkich scenariuszy, w których modele muszą nie tylko generować wiarygodne kadry, ale także zachowywać wewnętrzną logikę świata: grawitację, zachowanie obiektów oraz interakcje społeczne. W przeciwieństwie do wcześniejszych testów skupionych na jakości wizualnej, tutaj nacisk położono na zdolność sztucznej inteligencji do prognozowania stanu otoczenia.
Badacze zauważają, że większość współczesnych generatorów wideo radzi sobie z prostymi czynnościami fizycznymi, lecz szybko gubi wątek przy bardziej skomplikowanych scenach. Człowiek z łatwością dostrzeże, gdy filiżanka spadająca ze stołu nagle zmienia trajektorię bez wyraźnego powodu, podczas gdy model kontynuuje renderowanie klatek, ignorując tę niespójność.
Ograniczenia te mają bezpośredni wpływ na życie codzienne. Jeśli sztuczna inteligencja wideo będzie wykorzystywana do symulacji sytuacji drogowych, procedur medycznych czy filmów edukacyjnych, błędy w logice świata mogą prowadzić do błędnych oczekiwań i decyzji. Osoba polegająca na wygenerowanym nagraniu ryzykuje, że weźmie iluzję za wiarygodną prognozę.
Wydaje się, że kluczowym problemem pozostaje brak u modeli stabilnego „modelu świata” – wewnętrznej reprezentacji tego, jak obiekty i ludzie zachowują się w czasie. WorldReasonBench zmusza deweloperów do mierzenia nie estetyki obrazu, lecz właśnie tej głębokiej spójności.
W rezultacie benchmark popycha branżę w stronę tworzenia bardziej niezawodnych narzędzi, w których atrakcyjność wizualna ustępuje miejsca mierzalnej sile predykcyjnej. Zmienia to kryteria oceny postępu: teraz liczy się nie tylko to, czy coś „wygląda wiarygodnie”, ale również czy „zachowuje się konsekwentnie”.
Ostatecznie takie testy pomagają nam bardziej świadomie podchodzić do wykorzystania sztucznej inteligencji wideo w sytuacjach, w których od trafności przewidywań zależą realne wybory.



