Год назад Google запустила серию языковых моделей Gemini, но начало было неудачным — генерация изображений сопровождалась ошибками. С тех пор технология заметно улучшилась, и теперь компания делает ставку на второе поколение Gemini 2.0, стремясь создать лучшее решение для пользователей и бизнеса.
Сегодня Google анонсировала несколько новых версий этой модели: Gemini 2.0 Flash, облегчённую версию Flash-Lite и экспериментальную версию Gemini 2.0 Pro. Эти модели теперь доступны через Google AI Studio и Vertex AI, при этом Flash-Lite находится в публичном тестировании, а Pro — в раннем доступе.
По словам главного технического директора Google DeepMind Корая Кавукчуоглу, все модели поддерживают мультимодальный ввод с текстовым выводом, а в ближайшее время будут добавлены новые функции. Это даёт Google конкурентное преимущество перед такими компаниями, как DeepSeek и OpenAI.
В отличие от Google, новые модели DeepSeek и OpenAI пока не поддерживают мультимодальный ввод — изображения или файлы. DeepSeek-R1, хоть и может работать с ними через сайт и мобильное приложение, использует лишь OCR (оптическое распознавание символов), чтобы извлекать текст, но не анализирует другие данные.
Однако обе модели относятся к новому классу «мыслящих» моделей, которые анализируют ответы дольше, чтобы улучшить их точность. Это отличает их от серии Gemini 2.0, где упор делается на скорость и производительность.
Интересно, что сегодня на своей странице в соцсети X генеральный директор Google Сундар Пичаи анонсировал обновление мобильного приложения Google Gemini для iOS и Android. Новая версия оснащена моделью Flash Thinking, которая может быть интегрирована с YouTube, Google Maps и Google Search.
Источник
Источник: habr.com