GPT-5 обошел другие ИИ в пространственном мышлении. Но до людей еще далеко

Специалисты SenseTime Research и S-Lab (NTU) в свежем исследовании проанализировали способности GPT-5 к пространственному мышлению, сравнив их с человеческим навыком и другими ИИ — Gemini 2.5 Pro, Qwen 2.5 и InternVL3. Тест проходил в шести основных категориях:

MM — измерения: прикидка размеров/длины/глубины по 2D-кадрам.

MR — мысленная реконструкция: восстановление формы по виду/видам, «повороты в уме».

SR — отношения в пространстве: слева/справа, ближе/дальше, ориентации объектов.

PT — смена точки зрения: сопоставление разных ракурсов/камер.

DA — деформация и сборка: развертки кубов, узлы, составные детали.

CR — комплексное рассуждение: многошаговые задачи с памятью (навигация, скрытые объекты и т. п.).

Для теста использовались восемь бенчмарков, включавших разные категории: VSI (MM, SR, PT, CR), SITE (MM, SR, PT, CR), MMSI (MM, MR, PT, CR), OmniSpatial (MM, PT, CR), MindCube-Tiny (PT), STARE (PT, DA, CR), CoreCognition (SR, PT), SpatialViz (MR, SR, DA, CR). Вот результаты:

По тестам видно, что GPT-5 обходит Gemini 2.5. Pro на 8-24% (провал в SpatialViz вызван неудачной настройкой модели, из-за чего режим рассуждений пришлось переводить в minimal), но сильно уступает человеку. Модель уже хорошо справляется с оценкой размеров и дистанций, а также отношения объектов в пространстве. При этом GPT-5 все еще плохо справляется с сопоставлением разных ракурсов, сборкой и деформацией, обнаружением скрытых объектов и мысленной реконструкцией сцены. Все это — необходимые навыки для управления роботами и создания виртуальных миров.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии