Заявления Apple о больших моделях обработки данных стали предметом нового исследования

В ходе повторного анализа статьи Apple «Иллюзия мышления», вызвавшей споры, были подтверждены некоторые ключевые критические замечания, однако главный вывод исследования был поставлен под сомнение.

Исследователи из испанского Центра автоматизации и робототехники CSIC-UPM провели повторные эксперименты, основываясь на данных оригинальной статьи Apple, которая была опубликована в июне 2025 года и вызвала широкий резонанс в сообществе разработчиков искусственного интеллекта. 

Apple утверждала, что даже новейшие большие модели рассуждений (LRM) с трудом справляются с задачами, требующими базового символического планирования. Исследование показало, что производительность этих моделей резко падает, когда сложность задачи выходит за рамки умеренного уровня, и что иногда они проявляют чрезмерную осторожность при решении более простых задач.

Новое исследование в значительной степени подтверждает выводы Apple, но оспаривает их интерпретацию. Испанская команда утверждает, что недостатки моделей связаны не только с отсутствием «мыслительных способностей», но и с тем, как составлены задачи, как структурированы подсказки и какие методы стохастической оптимизации используются.

Башни Ханоя: пошаговые решения работают не всегда

Чтобы проверить способность к долгосрочному планированию, исследователи использовали классическую головоломку «Ханойская башня» с такими моделями, как Gemini 2.5 Pro. Они разбили задачу на более мелкие подзадачи, чтобы моделям не приходилось генерировать решение целиком за один раз.

Такое поэтапное решение неплохо работало для систем с семью дисками. Но при использовании восьми и более дисков производительность резко падала, что соответствовало внезапному снижению производительности в исследовании Apple по мере увеличения сложности.

Новая интерпретация указывает на использование токенов как на ключевой фактор: количество токенов, которые расходует модель, напрямую связано с тем, считает ли она решение возможным. Пока модель считает, что может решить задачу, она увеличивает потребление ресурсов. Если она решает, что задача неразрешима, она быстро прекращает работу, что свидетельствует о своего рода неявном управлении неопределённостью.

Сотрудничество с агентом увеличивает усилия, но не успех

Исследователи также попробовали мультиагентный подход, при котором две языковые модели по очереди предлагали шаги для решения задачи. Это приводило к длительным обсуждениям и большому расходу токенов, но редко давало верные решения.

Хотя модели соблюдали все правила, они часто застревали в бесконечных циклах допустимых, но бесполезных ходов. Авторы приходят к выводу, что моделям не хватает способности распознавать и реализовывать стратегии более высокого уровня, даже если они действуют формально правильно.

В отличие от Apple, которая сочла эти сбои свидетельством недостаточных когнитивных способностей, испанская команда также винит в них структуру подсказок и отсутствие глобальных механизмов поиска.

Переправа через реку: задача Apple была неразрешимой

Самая резкая критика была направлена в адрес теста на переправу через реку, который лежит в основе статьи Apple. Apple сообщила об особенно низкой производительности модели в этом тесте, но повторное исследование показало, что многие тестовые случаи Apple были математически неразрешимыми — факт, который не был указан в оригинальной публикации.

Исследователи из Испании провели тестирование на корректных конфигурациях и выяснили, что модель успешно справляется с решением сложных задач, включающих более 100 пар агентов.

Удивительно, но наиболее трудными оказались не самые масштабные задачи, а скорее те, что находятся «в середине». У таких задач очень мало подходящих решений, и они требуют чрезвычайно точного планирования, что создаёт большую нагрузку на модели.

Это подтверждает один из ключевых выводов Apple: наибольшее снижение производительности языковых моделей зависит не только от того, насколько велика или сложна проблема. Вместо этого модели испытывают наибольшие трудности при решении задач средней сложности, таких как головоломка с переправой через реку с пятью парами агентов, у которой есть лишь несколько правильных решений. С более простыми или сложными задачами модели часто справляются лучше — либо потому, что существует много возможных решений, либо потому, что модель легче анализирует задачу.

LRM как агенты стохастического поиска на неизвестной территории

Испанская команда в конечном счёте отвергла основное утверждение Apple о том, что языковые модели принципиально не способны к обобщению. Вместо этого они описали эти модели как «стохастические, настроенные с помощью обучения с подкреплением поисковые системы в дискретном пространстве состояний, которое мы едва понимаем».

Согласно этой точке зрения, языковые модели — это не рациональные планировщики, а системы, которые исследуют локальные пути решения на основе изученных шаблонов и обладают лишь ограниченной способностью к долгосрочному планированию.

Исследователи также выдвигают гипотезу о том, что применение токенов может быть своего рода внутренним сигналом для модели о её субъективном восприятии возможности решить задачу. Когда модель считает, что задача может быть решена, она направляет больше ресурсов на её выполнение, а если не видит перспективы, то прекращает работу.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии