Название конкурса заслуживает отдельного внимания. Он называется буквально «Последний экзамен человечества»: Humanity’s Last Exam. Ученые из CAIS и ScaleAI запустили его, чтобы собрать самый большой и сложный набор вопросов, которые поставят в тупик современные LLM. Предложить вопрос может каждый, и если его примут, то автор получит от 500 до 5000 долларов, а также соавторство в статье про получившийся бенчмарк. Всего исследователи планируют собрать не менее тысячи вопросов, и уже получили часть из них от ученых из университетов MIT, UC Berkeley и Stanford.
Вот несколько правил для отправки своего вопроса:
Вопрос нельзя скопировать из Интернета, книг, научных статей и других источников. Он должен быть оригинальный, придуманный именно вами.
Вопросы должны быть сложными, на них должно быть нелегко ответить большинству людей. Кроме того, ответы должно быть сложно «нагуглить».
У вопроса должен быть один конкретный неспорный ответ.
Вопросы не должны быть связаны с оружием или любой формой насилия.
Когда вы подаете вопрос и указываете ответ, то прямо на сайте вашу задачку сразу пытаются решить пять передовых моделей: GPT-4o, o1-mini и o1-preview от OpenAI, Gemini от Google и Sonnet 3.5 от Anthropic. Если все пять моделей дают неверный ответ, ваш вопрос принимают на рассмотрение.
В остальном победа – вопрос вашей фантазии или глубокой экспертности в какой-либо области. Так что советуем вам попробовать: вдруг повезет. Дедлайн отправки – 1 ноября 2024 года. Весь список условий и инструкцию можно найти вот тут.
Кстати, мы в нашем тг-канале Data Secrets в честь запуска Humanity’s Last Exam решили провести свой собственный конкурс, аналогичный. Вот только особенно строгих правил у нас нет, а выиграет тот, кто напишет самый остроумный вопрос, с которым уж точно не справятся современные модели. 5000 долларов в подарок не обещаем, но победитель получит нашу фирменную футболку-альманах с изображением сразу всех архитектур глубокого обучения.
Итоги мы подведем уже завтра, так что если хотите принять участие – поторопитесь!
Источник: habr.com