Специалисты SenseTime Research и S-Lab (NTU) в свежем исследовании проанализировали способности GPT-5 к пространственному мышлению, сравнив их с человеческим навыком и другими ИИ — Gemini 2.5 Pro, Qwen 2.5 и InternVL3. Тест проходил в шести основных категориях:
MM — измерения: прикидка размеров/длины/глубины по 2D-кадрам.
MR — мысленная реконструкция: восстановление формы по виду/видам, «повороты в уме».
SR — отношения в пространстве: слева/справа, ближе/дальше, ориентации объектов.
PT — смена точки зрения: сопоставление разных ракурсов/камер.
DA — деформация и сборка: развертки кубов, узлы, составные детали.
CR — комплексное рассуждение: многошаговые задачи с памятью (навигация, скрытые объекты и т. п.).
Для теста использовались восемь бенчмарков, включавших разные категории: VSI (MM, SR, PT, CR), SITE (MM, SR, PT, CR), MMSI (MM, MR, PT, CR), OmniSpatial (MM, PT, CR), MindCube-Tiny (PT), STARE (PT, DA, CR), CoreCognition (SR, PT), SpatialViz (MR, SR, DA, CR). Вот результаты:
По тестам видно, что GPT-5 обходит Gemini 2.5. Pro на 8-24% (провал в SpatialViz вызван неудачной настройкой модели, из-за чего режим рассуждений пришлось переводить в minimal), но сильно уступает человеку. Модель уже хорошо справляется с оценкой размеров и дистанций, а также отношения объектов в пространстве. При этом GPT-5 все еще плохо справляется с сопоставлением разных ракурсов, сборкой и деформацией, обнаружением скрытых объектов и мысленной реконструкцией сцены. Все это — необходимые навыки для управления роботами и создания виртуальных миров.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com