Разработчики выпустили бенчмарк для языковых моделей, в котором нейросетям надо играть в Street Fighter III

Разработчики представили бенчмарк для оценки возможностей языковых моделей в реальном времени. Для этого используется игра Street Fighter III. Авторы проекта отмечают, что динамичные компьютерные игры отлично подходят для таких задач.

Street Fighter III выбрали для оценки языковых моделей по следующим причинам:

Скорость. Игры в реальном времени позволяют оценить, как быстро языковая модель анализирует данные и принимает решения.

Сообразительность. Для хороших результатов важно тщательно просчитывать ходы.

Нестандартное мышление. Чтобы победить, надо принимать необычные решения.

Адаптивность. Надо учиться на своих ошибках, чтобы противник не мог использовать их.

Языковые модели в реальном времени управляют персонажами в Street Fighter III. Для этого им передают текстовое описание экрана, включая историю ходов и уровень здоровья, как управляемого персонажа, так и противника. Эти данные нейросеть анализирует и принимает решение о следующем шаге.

Разработчики уже провели более 300 боёв между разными языковыми моделями. Для каждой из них собирали результаты и рассчитывали коэффициент Эло. Рейтинг сейчас выглядит следующим образом:

Модель

Рейтинг

🥇OpenAI: gpt-3.5-turbo-0125

1776,11

🥈Mistral: mistral-small-latest

1586,16

🥉OpenAI: gpt-4-1106-preview

1584,78

OpenAI: gpt-4

1517,2

OpenAI: gpt-4-turbo-preview

1509,28

OpenAI: gpt-4-0125-preview

1438,92

Mistral: mistral-medium-latest

1356,19

Mistral: mistral-large-latest

1231,36

Код проекта открыт и опубликован в открытом репозитории. В нём можно найти подробную инструкцию по установке и запуску боёв.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”