Мультимодальную нейросеть GPT-4o добавили на Image Arena — площадку, на которой пользователи в слепом тесте выбирают лучшую модель для генерации картинок по тексту. Решение от OpenAI вырвалось на первое место практически сразу после релиза возможности создавать картинки.
GPT-4o делит первое место с Reve — нейросетью от одноимённой компании французских разработчиков и дизайнеров со штаб-квартирой в Калифорнии. Они с нуля обучили модель для генерации изображений. Пользователи из России заметили, что Reve отлично справляется с созданием постсоветских пейзажей, панельных многоэтажек, советского брутализма и деревенской эстетики. В слепых тестах Reve довольно быстро вырвалась на первое место на арене.
Теперь же Reve делит первое место с GPT-4o. Примечательно, что решение от OpenAI может генерировать не только изображения, и модель с самого начала создавали, как универсальную систему. Также на арене есть и другие мультимодальные нейросети, например, Gemini 2.0 Flash. Она по результатам оказывается лучше Stable Diffusion 3.5 Medium, но хуже Ideogram v2a Turbo. Все модели семейства Gemini могут создавать изображение, но не все ещё появились на арене.
Пользователи могут повлиять на результаты арены. Для этого надо перейти во вкладку Arena и выбирать картинки, которые больше нравятся. На основе этих система рассчитывает итоговый рейтинг.
Источник: habr.com