Заявления Apple о больших моделях обработки данных стали предметом нового исследования

В ходе повторного анализа статьи Apple «Иллюзия мышления», вызвавшей споры, были подтверждены некоторые ключевые критические замечания, однако главный вывод исследования был поставлен под сомнение.

Исследователи из испанского Центра автоматизации и робототехники CSIC-UPM провели повторные эксперименты, основываясь на данных оригинальной статьи Apple, которая была опубликована в июне 2025 года и вызвала широкий резонанс в сообществе разработчиков искусственного интеллекта.

Apple утверждала, что даже новейшие большие модели рассуждений (LRM) с трудом справляются с задачами, требующими базового символического планирования. Исследование показало, что производительность этих моделей резко падает, когда сложность задачи выходит за рамки умеренного уровня, и что иногда они проявляют чрезмерную осторожность при решении более простых задач.

Новое исследование в значительной степени подтверждает выводы Apple, но оспаривает их интерпретацию. Испанская команда утверждает, что недостатки моделей связаны не только с отсутствием «мыслительных способностей», но и с тем, как составлены задачи, как структурированы подсказки и какие методы стохастической оптимизации используются.

Башни Ханоя: пошаговые решения работают не всегда

Чтобы проверить способность к долгосрочному планированию, исследователи использовали классическую головоломку «Ханойская башня» с такими моделями, как Gemini 2.5 Pro. Они разбили задачу на более мелкие подзадачи, чтобы моделям не приходилось генерировать решение целиком за один раз.

Такое поэтапное решение неплохо работало для систем с семью дисками. Но при использовании восьми и более дисков производительность резко падала, что соответствовало внезапному снижению производительности в исследовании Apple по мере увеличения сложности.

Новая интерпретация указывает на использование токенов как на ключевой фактор: количество токенов, которые расходует модель, напрямую связано с тем, считает ли она решение возможным. Пока модель считает, что может решить задачу, она увеличивает потребление ресурсов. Если она решает, что задача неразрешима, она быстро прекращает работу, что свидетельствует о своего рода неявном управлении неопределённостью.

Сотрудничество с агентом увеличивает усилия, но не успех

Исследователи также попробовали мультиагентный подход, при котором две языковые модели по очереди предлагали шаги для решения задачи. Это приводило к длительным обсуждениям и большому расходу токенов, но редко давало верные решения.

Хотя модели соблюдали все правила, они часто застревали в бесконечных циклах допустимых, но бесполезных ходов. Авторы приходят к выводу, что моделям не хватает способности распознавать и реализовывать стратегии более высокого уровня, даже если они действуют формально правильно.

В отличие от Apple, которая сочла эти сбои свидетельством недостаточных когнитивных способностей, испанская команда также винит в них структуру подсказок и отсутствие глобальных механизмов поиска.

Переправа через реку: задача Apple была неразрешимой

Самая резкая критика была направлена в адрес теста на переправу через реку, который лежит в основе статьи Apple. Apple сообщила об особенно низкой производительности модели в этом тесте, но повторное исследование показало, что многие тестовые случаи Apple были математически неразрешимыми — факт, который не был указан в оригинальной публикации.

Исследователи из Испании провели тестирование на корректных конфигурациях и выяснили, что модель успешно справляется с решением сложных задач, включающих более 100 пар агентов.

Удивительно, но наиболее трудными оказались не самые масштабные задачи, а скорее те, что находятся «в середине». У таких задач очень мало подходящих решений, и они требуют чрезвычайно точного планирования, что создаёт большую нагрузку на модели.

Это подтверждает один из ключевых выводов Apple: наибольшее снижение производительности языковых моделей зависит не только от того, насколько велика или сложна проблема. Вместо этого модели испытывают наибольшие трудности при решении задач средней сложности, таких как головоломка с переправой через реку с пятью парами агентов, у которой есть лишь несколько правильных решений. С более простыми или сложными задачами модели часто справляются лучше — либо потому, что существует много возможных решений, либо потому, что модель легче анализирует задачу.

LRM как агенты стохастического поиска на неизвестной территории

Испанская команда в конечном счёте отвергла основное утверждение Apple о том, что языковые модели принципиально не способны к обобщению. Вместо этого они описали эти модели как «стохастические, настроенные с помощью обучения с подкреплением поисковые системы в дискретном пространстве состояний, которое мы едва понимаем».

Согласно этой точке зрения, языковые модели — это не рациональные планировщики, а системы, которые исследуют локальные пути решения на основе изученных шаблонов и обладают лишь ограниченной способностью к долгосрочному планированию.

Исследователи также выдвигают гипотезу о том, что применение токенов может быть своего рода внутренним сигналом для модели о её субъективном восприятии возможности решить задачу. Когда модель считает, что задача может быть решена, она направляет больше ресурсов на её выполнение, а если не видит перспективы, то прекращает работу.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”