Коллективный учёный против «математического гения» от OpenAI

В Беркли (Калифорния, США) состоялось закрытое мероприятие с участием 30 ведущих математиков мира. Целью встречи стало испытание новой разработки компании OpenAI — чат-бота o4-mini, обладающего способностью к сложным логическим рассуждениям.

Организатором эксперимента выступила некоммерческая организация Epoch AI, которая занимается тестированием и сравнением больших языковых моделей, а о событии после завершения тестов сообщил портал Scientific American. Нейросеть оказалась способна ответить на некоторые из самых сложных задач в мире, и участники математического конклава склонны были приравнять ИИ-модель к «математическому гению».

Чат-бот o4-mini позиционируется как самая экономичная среди малых моделей OpenAI и призван значительно расширить диапазон приложений, построенных на базе ИИ, благодаря доступной цене. Для оценки способностей нейросети был создан специальный набор из 300 уникальных математических задач разного уровня сложности — от студенческого до исследовательского, ответы на которые ещё не были опубликованы. А самим ученым было запрещено что-либо обсуждать друг с другом в обычных мессенджерах и электронной почте для чистоты эксперимента.

Такие исходные поставили бы в тупик традиционные модели, но в ходе подготовки к встрече o4-mini уже показал впечатляющий результат, решив около 20% задач. Участникам симпозиума же предстояло сформулировать финальные десять вопросов, которые были настоящим вызовом даже для академиков. Придумать и решить их были способны единицы людей во всем мире. За каждую задачу, которую ИИ не смог бы решить, автору полагалось вознаграждение 7500 долларов.

Как признался математик Кен Оно (руководитель и судья на встрече), нейросети предложили решить задачу из теории чисел, соответствующую уровню докторской диссертации. К его изумлению, чат-бот в режиме реального времени начал поиски решения. Сначала он изучил литературу по этому вопросу, затем попробовал решить упрощённую версию задачи и, наконец, предложил людям достаточно дерзкое, но верное решение.

В итоге группе всё же удалось найти десять вопросов, которые заставили o4-mini подумать, но учёные были поражены тем, насколько далеко продвинулся ИИ за один год. Бот также был намного быстрее профессионального математика: ему требовалось всего несколько минут, чтобы сделать то, на что у эксперта-человека ушли бы недели или месяцы.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии