Вчера, 3 марта, компания Google официально представила Gemini 3.1 Flash-Lite — самую быструю и экономичную модель из серии Gemini 3, которая построена на базе Gemini 3 Pro для выполнения различных масштабируемых задач. Представители поискового гиганта делают акцент на том, что новинка обеспечивает довольно высокое качество ответов за свою цену — это, собственно, ключевое преимущество Gemini 3.1 Flash-Lite, которое должно привлечь внимание пользователей. Например, стоимость 1 миллиона входных токенов в данном случае составляет всего 0,25 доллара, а 1 миллион выходных токенов обойдётся всего в 1,5 доллара. Telegram-канал создателя Трешбокса про технологии Изображение: The Gemini Team, Google
Судя по информации из базы данных бенчмарках Artificial Analysis, Gemini 3.1 Flash-Lite превосходит Flash 2.5 по скорости получения первого токена ответа (Time to First Answer Token) в 2,5 раза, а скорость вывода была увеличена на 45% при сохранении аналогичного или даже более высокого качества ответов. При этом представители компании Google почему-то решили не акцентировать своё внимание на том, что модель Gemini 2.5 Flash-Lite в том же бенчмарке оказалась даже быстрее Gemini 3.1 Flash-Lite, пусть и всего на 3 балла. Но, в любом случае, задержка вывода у новинки действительно очень низкая — особенно на фоне GPT-5 mini или Claude 4.5 Haiku.
В Google отмечают, что низкая задержка необходима для высокочастотных рабочих процессов и приложений, которые взаимодействуют с пользователем в режиме реального времени, так как скорость ответа в этом случае имеет первостепенное значение. Более того, поисковой гигант считает, что новая версия модели отлично справится с масштабными задачами вроде модерации контента или перевода большого объёма данных, где стоимость выполнения работы является основным приоритетом. Естественно, LLM способна и на более сложные рабочие нагрузки, которые требуют глубокого анализа информации. Изображение: The Gemini Team, Google
Например, первые пользователи, которым дали протестировать эффективность и возможности логического мышления Gemini 3.1 Flash-Lite, отметили, что новая LLM способна обрабатывать сложные входные данные с точностью моделей более высокого уровня, а также чётко следовать инструкциям. Собственно, в бенчмарке GPQA Diamond модель набрала 86,9% правильных ответов, а в MMMU Pro — 76,8%. Это заметно больше, чем у любого «лёгкого» конкурента от крупнейших игроков на ИИ-рынке.
Источник: trashbox.ru