GPT-5 обошел другие ИИ в пространственном мышлении. Но до людей еще далеко

Специалисты SenseTime Research и S-Lab (NTU) в свежем исследовании проанализировали способности GPT-5 к пространственному мышлению, сравнив их с человеческим навыком и другими ИИ — Gemini 2.5 Pro, Qwen 2.5 и InternVL3. Тест проходил в шести основных категориях:

MM — измерения: прикидка размеров/длины/глубины по 2D-кадрам.

MR — мысленная реконструкция: восстановление формы по виду/видам, «повороты в уме».

SR — отношения в пространстве: слева/справа, ближе/дальше, ориентации объектов.

PT — смена точки зрения: сопоставление разных ракурсов/камер.

DA — деформация и сборка: развертки кубов, узлы, составные детали.

CR — комплексное рассуждение: многошаговые задачи с памятью (навигация, скрытые объекты и т. п.).

Для теста использовались восемь бенчмарков, включавших разные категории: VSI (MM, SR, PT, CR), SITE (MM, SR, PT, CR), MMSI (MM, MR, PT, CR), OmniSpatial (MM, PT, CR), MindCube-Tiny (PT), STARE (PT, DA, CR), CoreCognition (SR, PT), SpatialViz (MR, SR, DA, CR). Вот результаты:

По тестам видно, что GPT-5 обходит Gemini 2.5. Pro на 8-24% (провал в SpatialViz вызван неудачной настройкой модели, из-за чего режим рассуждений пришлось переводить в minimal), но сильно уступает человеку. Модель уже хорошо справляется с оценкой размеров и дистанций, а также отношения объектов в пространстве. При этом GPT-5 все еще плохо справляется с сопоставлением разных ракурсов, сборкой и деформацией, обнаружением скрытых объектов и мысленной реконструкцией сцены. Все это — необходимые навыки для управления роботами и создания виртуальных миров.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”