Microsoft выпустила семейство моделей искусственного интеллекта Phi-3,5, которая включает Phi-3.5-vision, Phi-3,5-MoE и Phi-3.5-mini. Все они построены на основе синтетических данных и отфильтрованных общедоступных сайтов. Линейка ИИ-моделей поддерживает контекст длиной 128 тыс. токенов. Три модели доступны на платформе Hugging Face по лицензии MIT.
Изображение создано в Midjourney
Phi-3.5-MoE примечательна использованием технологии Mixture of Experts (MoE). При таком подходе только часть сети используется для вычисления выходных данных для любого одного входа. Модель с 16 группами и 3,8 млрд параметров использует 6,6 млрд параметров, она обучена на 4,9 трлн токенов с применением 512 графических процессоров Nvidia H100.
Исследовательская группа Microsoft разработала модель с нуля, чтобы повысить её производительность. В стандартных ИИ-тестах Phi-3.5-MoE превосходит Llama-3.1 8B, Gemma-2-9B и Gemini-1.5-Flash, а также она близка к лидирующей GPT-4o-mini.
Phi-3.5-mini c 3,8 млрд параметров опережает Llama-3.1 8B и Mistral 7B, а также способна составить конкуренцию Mistral NeMo 12B. ИИ-модель обучили на 3,4 трлн токенов с использованием 512 единиц H100. Microsoft представила малую модель ещё в апреле этого.
Имея всего 3,8 млрд активных параметров, Phi-3.5-mini конкурентоспособна в многоязычных задачах по сравнению с большими языковыми моделями с гораздо большим количеством параметров. Кроме того, модель теперь поддерживает длину контекста 128 тыс. токенов, а её главный конкурент, Gemma-2, только 8 тыс.
Phi-3.5-vision — это модель с 4,2 млрд параметров, обученная на 500 млрд токенов с применением 256 графических процессоров Nvidia A100. Она поддерживает анализ многофреймовых изображений и рассуждения. Модель улучшила производительность в MMMU с 40,2 до 43, в MMBench с 80,5 до 81,9, в TextVQA с 70,9 до 72.
Источник: habr.com