В первом турнире по вайб-кодингу K Prize победитель смог решить только 7,5% задач

В первом этапе турнира по вайб-кодингу под названием K Prize победитель-разработчик смог решить только 7,5% задач.

Соревнование K Prize — это проект некоммерческой организации Laude Institute при поддержке сооснователя Databricks и Perplexity Энди Конвински. Особенность состязания заключается в том, что задания для разработчиков берутся из списка новых задач с GitHub, чтобы исключить возможность подгонки ИИ-систем под сложный тест.

Призовой фонд первого раунда K Prize составил $50 000. В рамках проекта для первого опенсорс‑решения, преодолевшего рубеж в 90%, предусмотрен приз в размере $1 000 000.

Победителем первого турнира конкурса K Prize стал инженер-разработчик из Бразилии Эдуардо Роша де Андраде. Его итоговый результат составил всего 7,5% правильных решений (closed 9 out of 120 github issues). «Мы хотели сделать по-настоящему сложный бенчмарк — и это получилось», — отметил Конвински.

Организаторы мероприятия пояснили, что популярные тесты вроде SWE‑Bench слишком лёгкие, а многие ИИ-модели учатся проходить их специально. Для мерпориятия K Prize задания именно выбирались среди новых, недавно опубликованных на GitHub проблем, чтобы никто не мог натренировать свои ИИ-алгоритмы заранее.

Например, на тесте SWE‑Bench лучшие ИИ-модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших ИИ-моделей не преодолела даже порог в 10%.

Профильные эксперты считают, что столь низкие результаты — важный сигнал для рынка, где заявляют об ИИ‑программистах, способных заменить людей, но по факту это не так.

Создатели конкурса K Prize планируют продолжать развитие проекта, чтобы получить объективную картину реальных возможностей ИИ‑разработки без искусственных подгонок.

«Если наши лучшие системы не могут справиться даже с 10% новых задач, пора взглянуть на индустрию без розовых очков», — заявил Конвински.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии