Команда исследователей из OpenAI разработала новый инструмент для оценки возможностей в области машинного обучения — MLE-bench. Документ с описанием этого бенчмарка опубликован на предпечатном сервере arXiv.
С ростом применения машинного обучения и искусственного интеллекта появились новые задачи, требующие инженерного подхода. MLE-bench включает 75 тестов, взятых с платформы Kaggle, которые позволяют оценить, насколько хорошо ИИ может решать реальные проблемы, такие как расшифровка древних свитков или разработка новых типов вакцин на основе мРНК.
Хотя инструмент не рассматривает вопросы безопасности ИИ, он открывает возможности для разработки средств, направленных на предотвращение потенциальных негативных последствий. Результаты тестирования помогут команде OpenAI отслеживать прогресс в исследованиях ИИ и оценивать его способность к автономной инженерной деятельности и инновациям.
Источник: www.ferra.ru