SEA-LION: Как Сингапур создает более инклюзивный ИИ

С ростом внедрения генеративного искусственного интеллекта в различных отраслях, все более очевидной становится проблема отсутствия инклюзивности и глобального представительства. Особенно это касается крупных языковых моделей, которые часто ориентированы на западные рынки, оставляя без внимания огромные группы населения Юго-Восточной Азии.

Юго-Восточная Азия — регион с населением более 692 миллионов человек, говорящих на более чем дюжине языков, включая филиппинский, вьетнамский и лаосский. В одном только Сингапуре четыре официальных языка: китайский, английский, тамильский и малайский. Однако большинство существующих LLM не учитывают это разнообразие, что приводит к недостаточному представлению языков и культур региона.

Сингапур стремится восполнить этот пробел с помощью новой модели SEA-LION, разработанной AI Singapore (AISG)

*Видео ускорено

SEA-LION — это LLM с открытым исходным кодом, созданная для более точного и эффективного отражения языков и культур Юго-Восточной Азии. Модель уже работает на базе двух версий: с тремя и семью миллиардами параметров.

SEA-LION была обучена на 981 миллиарде языковых токенов, из которых 128 миллиардов относятся к языкам Юго-Восточной Азии. В то время как популярные модели, такие как Llama 2 от Meta, содержат всего 0,5% данных, ориентированных на этот регион, SEA-LION включает 13% таких данных.

Новая версия SEA-LION с семью миллиардами параметров планируется к выпуску в середине 2024 года. В планах также модели с 13 и 30 миллиардами параметров, которые помогут улучшить понимание региональных нюансов и контекста.

По мере развития технологии и появления новых тестов, SEA-LION станет более мощной моделью, предоставляя существенную поддержку для многоязычных сред и специфических региональных потребностей. Важную роль в этом процессе играет сотрудничество с другими странами региона, исследовательскими институтами и отраслевыми партнерами.

Сингапур стремится создать более инклюзивную и культурно чувствительную экосистему ИИ, что отмечает Чарли Дай, вице-президент и главный аналитик Forrester. Решение, ориентированное на региональные особенности, поможет преодолеть существующие барьеры и предоставит более точные и релевантные данные для различных приложений, от социального обеспечения до медицинских услуг и государственного управления.

Источник: habr.com

0 0 голоса
Рейтинг новости
18100
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии