Последняя версия системы AlphaGeometry от DeepMind может решать геометрические задачи лучше, чем большинство экспертов-людей, и соответствует результатам победителей математических олимпиад.
AlphaGeometry2 решает 84% задач по геометрии Международной математической олимпиады (IMO) с 2000 по 2024 год, что на 54% больше, чем у его предшественника. На тесте IMO-AG-50, который включает 50 формализованных задач по геометрии IMO, он решил 42 задачи — немного лучше, чем среднестатистический золотой медалист, который обычно решает около 40 задач.
Система работает в связке с двумя основными компонентами: языковой моделью, основанной на архитектуре Gemini, и символическим механизмом под названием DDAR (дедуктивная база данных для арифметических рассуждений).
Языковая модель, обученная на задачах синтетической геометрии, предлагает потенциальные шаги и конструкции, которые могут помочь решить задачу. Она делает это, генерируя предложения на специализированном языке, описывающем геометрические объекты и взаимосвязи.
Затем DDAR рассматривает эти предположения, используя логику для получения из них новых фактов. Следуя определённым правилам, он формирует то, что команда называет «дедуктивным замыканием» всех возможных выводов.
Процесс решения проблемы осуществляется посредством итераций. Языковая модель генерирует возможные следующие шаги, которые DDAR проверяет на логическую последовательность и полезность. Многообещающие идеи сохраняются и исследуются далее.
Новый алгоритм поиска под названием SKEST (Shared Knowledge Ensemble of Search Trees) запускает несколько стратегий поиска параллельно, позволяя им обмениваться полезными результатами через общую базу знаний. Это помогает им работать вместе и быстрее находить решения.
Когда DDAR находит полное доказательство, объединяющее предложения языковой модели с известными принципами, AlphaGeometry2 представляет его в качестве решения. Команда отмечает, что эти доказательства часто демонстрируют неожиданную креативность.
По сравнению с предыдущей версией AlphaGeometry, в новой версии было внесено множество улучшений и оптимизаций. К ним относятся более выразительный язык геометрического описания, который теперь включает в себя локусные кривые и линейные уравнения, а также более быстрая реализация DDAR на C++. Утверждается, что новая версия в 300 раз быстрее предыдущей реализации на Python.
Удивительно, но ни используемый токенизатор, ни язык обучения, специфичный для конкретной области, не играют решающей роли в производительности AlphaGeometry2. Аналогичные результаты были получены как с использованием специализированных токенизаторов с небольшим словарным запасом, так и с использованием универсальных токенизаторов с большими моделями. Обучение на естественном языке также дало сопоставимые результаты с обучением на формальном языке геометрии.
Ещё одним интересным открытием является то, что языковые модели, предварительно обученные на математических наборах данных, а затем доработанные на данных AlphaGeometry, приобретают немного другие способности, чем те, которые обучаются с нуля. Хотя обе модели обучаются на одних и тех же данных, они развивают взаимодополняющие сильные стороны. Объединив эти модели в новый алгоритм поиска под названием SKEST (Shared Knowledge Ensemble of Search Trees), можно ещё больше повысить скорость решения задач.
Исследование также даёт важное представление о роли LLM в решении математических задач. Согласно статье, было показано, что модели AlphaGeometry2 способны генерировать не только вспомогательные конструкции, но и полные доказательства. Это говорит о том, что современные языковые модели могут работать без внешних инструментов, таких как символьные процессоры.
Насколько можно судить по работе, используемые языковые модели ещё не были обучены как модели рассуждений с помощью используемых в настоящее время методов RL, поэтому возможны дальнейшие улучшения производительности. Поэтому вполне вероятно, что следующая версия будет в большей степени опираться на модели рассуждений и может снизить роль символьного движка, по крайней мере, экспериментально.
Таким образом, работа над этой демонстрационной системой для нейросимволического AI отражает главную дискуссию в современных исследованиях AI: могут ли модели глубокого обучения надёжно рассуждать? Или, точнее, могут ли генеративные модели-трансформеры, такие как LLM, научиться надёжно рассуждать? Хотя AlphaGeometry2 наглядно демонстрирует сильные стороны нейросимволических систем, выводы команды о роли LLM оставляют вопрос открытым.
Несмотря на впечатляющий прогресс, достигнутый в AlphaGeometry2, у него всё ещё есть ограничения. Например, используемый формальный язык пока не позволяет описывать задачи с переменным количеством точек, нелинейными уравнениями или неравенствами. Кроме того, некоторые задачи Международного математического конкурса остаются нерешёнными. Возможными отправными точками для дальнейших улучшений являются разбиение сложных задач на подзадачи и применение обучения с подкреплением.
Помимо задач по геометрии, этот подход можно применить и в других областях математики и естественных наук. Потенциальные области применения варьируются от решения сложных задач по физике и инженерии до помощи исследователям и студентам.
Ранее компания DeepMind добилась впечатляющих результатов в области AI в прогнозировании структуры белков и умножении матриц с помощью AlphaGo, AlphaFold и AlphaTensor — и даже получила Нобелевскую премию за AlphaFold.
Источник
Источник: habr.com