На arXiv опубликован препринт с описанием нового способа проверки больших языковых моделей — «теста Гёделя» (название дано в честь Курта Гёделя, символа строгих математических доказательств). В отличие от привычных бенчмарков, он проверяет не умение решать известные задачи, а способность находить новые, пусть и простые, математические результаты.
Авторы работы — профессор Моран Фельдман из Университета Хайфы, специалист по алгоритмам комбинаторной оптимизации, и Амин Карбаси, руководитель исследований в Cisco Foundation AI, ранее профессор Йельского университета и лауреат престижных грантов NSF, ONR и AFOSR. Оба активно публикуются именно в тех областях, где и формулируется тест.
Для эксперимента выбрали пять свежих задач в области комбинаторной оптимизации. Модели давали 1–2 исходные статьи, но формулировку самой гипотезы скрывали. Таким образом проверяли, сможет ли GPT-5 вывести корректное доказательство, найти контрпример или запутаться.
Итог оказался смешанным: в трех случаях GPT-5 предложила решения, которые исследователи оценили как почти правильные — ключевая идея совпадает с требуемой, но обоснование не доведено до уровня полного, проверяемого доказательства. Интересно, что в одном из случаев модель сумела опровергнуть исходную гипотезу и предложить рабочую альтернативу. Две задачи не удались: GPT-5 не справилась со «склейкой» идей из разных статей и не потянула строгий анализ в самой сложной задаче.
«Тест Гёделя» интересен тем, что в нем идет речь не о воспроизведении известных решений, а о возможности модели с нуля создавать новую гипотезу, пусть пока и для небольшой задачи. При этом тест GPT-5 не пройден — речь идет о частичном успехе и очень ограниченной выборке. Однако авторы осторожно заявляют, что уже текущие результаты указывают на шаг к системам, способным самостоятельно формулировать и подтверждать новые идеи, а значит — участвовать в настоящих открытиях.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com