Коллективный учёный против «математического гения» от OpenAI

В Беркли (Калифорния, США) состоялось закрытое мероприятие с участием 30 ведущих математиков мира. Целью встречи стало испытание новой разработки компании OpenAI — чат-бота o4-mini, обладающего способностью к сложным логическим рассуждениям.

Организатором эксперимента выступила некоммерческая организация Epoch AI, которая занимается тестированием и сравнением больших языковых моделей, а о событии после завершения тестов сообщил портал Scientific American. Нейросеть оказалась способна ответить на некоторые из самых сложных задач в мире, и участники математического конклава склонны были приравнять ИИ-модель к «математическому гению».

Чат-бот o4-mini позиционируется как самая экономичная среди малых моделей OpenAI и призван значительно расширить диапазон приложений, построенных на базе ИИ, благодаря доступной цене. Для оценки способностей нейросети был создан специальный набор из 300 уникальных математических задач разного уровня сложности — от студенческого до исследовательского, ответы на которые ещё не были опубликованы. А самим ученым было запрещено что-либо обсуждать друг с другом в обычных мессенджерах и электронной почте для чистоты эксперимента.

Такие исходные поставили бы в тупик традиционные модели, но в ходе подготовки к встрече o4-mini уже показал впечатляющий результат, решив около 20% задач. Участникам симпозиума же предстояло сформулировать финальные десять вопросов, которые были настоящим вызовом даже для академиков. Придумать и решить их были способны единицы людей во всем мире. За каждую задачу, которую ИИ не смог бы решить, автору полагалось вознаграждение 7500 долларов.

Как признался математик Кен Оно (руководитель и судья на встрече), нейросети предложили решить задачу из теории чисел, соответствующую уровню докторской диссертации. К его изумлению, чат-бот в режиме реального времени начал поиски решения. Сначала он изучил литературу по этому вопросу, затем попробовал решить упрощённую версию задачи и, наконец, предложил людям достаточно дерзкое, но верное решение.

В итоге группе всё же удалось найти десять вопросов, которые заставили o4-mini подумать, но учёные были поражены тем, насколько далеко продвинулся ИИ за один год. Бот также был намного быстрее профессионального математика: ему требовалось всего несколько минут, чтобы сделать то, на что у эксперта-человека ушли бы недели или месяцы.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”