OpenAI представила новую систему оценки GDPval, которая проверяет работу ИИ на реальных экономически ценных задачах в 44 профессиях. Результаты показали, что передовые модели всё ближе к качеству труда людей-экспертов.
В список вошли риэлторы, юристы, инженеры, медсёстры, фармацевты, программисты, финансовые аналитики и даже социальные работники.
Примеры заданий: анализ изображений кожных заболеваний, создание брошюры для агентства недвижимости или составление конкурентного анализа рынка доставки.
Неожиданно лучшей моделью в тестах оказалась Claude Opus 4.1 от Anthropic, а не GPT-5. При этом продвинутая версия GPT-5-high смогла соответствовать уровню экспертов более чем в 40% случаев. Для сравнения: GPT-4o показал лишь 13,7%.
OpenAI подчёркивает, что ИИ пока не заменяет людей, а лишь дополняет их работу, выполняя чётко формализованные задачи быстрее и дешевле.
Источник: www.ferra.ru