OpenAI представила новую языковую модель GPT-4o, которая теперь ляжет в основу ChatGPT. GPT-4o может воспринимать и генерировать звук, изображение и текст и будет доступна всем пользователям бесплатно.
О в GPT-4o означает omni, что должно отражать универсальность её работы. Эта версия «намного быстрее» предшественниц и занимает первое место по всем тестам по сравнению с конкурентами, включая Google Gemini.
Среди особенностей модели:
может реагировать на аудиовход всего за 232 миллисекунды, в среднем 320 миллисекунд, что аналогично времени реакции человека(откроется в новом окне) в разговоре;
общается голосом «как человек», меняя интонации;
улучшенная память: модель запоминает все беседы с пользователем;
соответствует производительности GPT-4 Turbo для текста на английском языке и кода;
значительно улучшена работа с текстом не на английском языке (поддерживает 50 языков);
синтез объектов в 3D;
намного лучше воспринимает и анализирует изображения, включая графики, диаграммы и скриншоты, по сравнению с существующими моделями;
пользуется как собственными знаниями, так и данными из Интернета.
Полный список возможностей модели перечислен в посте в блоге OpenAI. В ходе демонстрации GPT-4o сотрудники OpenAI пообщались с ней голосом, продемонстрировав её умение понимать тон и направление беседы и то, как естественно она разговаривает и даже шутит. Её также попросили сымитировать типичный голос робота, с чем она также справилась.
Согласно посту в блоге OpenAI, возможности GPT-4o «будут развёртываться постепенно начиная с сегодняшнего дня», но функции обработки текста и изображений начнут должны появиться в ChatGPT в ближайшее время. Для разработчиков новая модель доступна через API «уже сегодня», заявила технический директор OpenAI Мира Мурати. OpenAI пообещала также выпустить приложение для ПК.
Источник: habr.com