Инклюзивный ИИ: как неидеальные данные делают технологии ближе к людям

Об эксперте: Карина Байрамова — менеджер проектов и продуктов в команде инклюзии Яндекса. Рассказывает о том, как инклюзивные сервисы создаются и адаптируются, как ИИ работает на благо общества и помогает абсолютно разным людям оставаться в коннекте друг с другом и с окружающим миром.

Многие разработчики все еще учат ИИ на идеальных данных: чистый звук, ровный свет, четкие команды. Такой подход работает в теории. Но на практике пользователь, который работает с нейросетью, может говорить с сильным акцентом, снимать на разбитую камеру в темноте и торопиться. Сталкиваясь с такими артефактами, алгоритмы теряются и отвечают с ошибками.

Новым технологическим трендом может стать смещение фокуса с идеальных данных на репрезентативные — те, что в полной мере отражают разнообразие человеческих голосов, интонаций, почерков, внешности и паттернов поведения.

Что такое «неидеальные данные» и зачем они ИИ

«Неидеальные» данные — это все, что не укладывается в условную норму, на которой традиционно обучают модели. К ним относятся:

речь людей с особенностями артикуляции, дикции или после неврологических заболеваний;
голоса с нестандартным тембром, скоростью или интонацией;
визуальные сценарии, где важен не внешний вид картинки, а ее смысл;
пользовательские действия, которые идут не по «ожидаемому» сценарию.

Для разработчиков такие данные считаются сложными — их мало, они сильно отличаются друг от друга и плохо поддаются автоматической разметке. Но работа с такой информацией заставляет алгоритмы учиться работе с живыми пользователями. В итоге ИИ-модели начинают лучше понимать людей в шумном метро, при плохом соединении или пользователей с особенностями речи.

Исследования Good Design Foundation подтверждают: модели, обученные на таких данных, устойчивее к нестандартным условиям и реже допускают критические ошибки. Например, благодаря обучению на записях людей с особенностями речи голосовой ассистент Алиса стала заметно лучше понимать пользователей после инсульта, с ДЦП и заиканием. По оценкам разработчиков, Алиса стала справляться с распознаванием речи в среднем на 20% лучше и работать в сложной акустической обстановке.

От теории к практике: как «неидеальные» данные влияют на продукты и их использование

Инклюзивный подход меняет саму логику разработки. Вместо классического тестирования все чаще используют совместный дизайн (co-design), когда в процесс вовлекаются люди с уникальным опытом. Так, по данным нашего исследования, большинство людей с особенностями зрения ежедневно пользуются смартфонами — для них критически важно качество работы программ для чтения экрана. Именно поэтому в команде инклюзии Яндекса работают тестировщики с особенностями зрения. Они исследуют дизайны интерфейсов и находят барьеры, которые не видит большинство зрячих разработчиков: например, неправильную навигацию для скринридера.

Другая особенность инклюзивного подхода — в изменении паттернов взаимодействия с продуктом у широкой аудитории. Очень часто решения, которые изначально разрабатывались для узкой группы пользователей, затем перенимают все остальные. Самые распространенный пример — субтитры. Изначально их создавали для людей с особенностями слуха, а сейчас постоянно используют 51% россиян — в шумном вагоне метро, при изучении новых языков или в ситуациях, когда нельзя включить звук. Субтитры перестали быть специальной функцией и стали частью стандартного пользовательского опыта.

Примеры таких результатов есть и в разработке ИИ-решений. Например, умную камеру в Яндекс Браузере создавали для быстрого и удобного взаимодействия с миром через камеру смартфона. Технология работает в реальном времени: видит надписи на упаковках и вывесках магазинов, подсказывает, как правильно навести камеру, и зачитывает содержимое вслух. В результате инструментом теперь пользуется широкая аудитория — чтобы найти товар, прочитать мелкий шрифт на упаковке или быстро оцифровать документ.Обучение ИИ на «неидеальных» данных — например, на речи людей с особенностями дикции — работает так же. Оно делает алгоритм более надежным и точным инструментом для всех пользователей, ведь в шумном месте или в условиях плохой связи может оказаться каждый.

Прогноз: от зарождающегося тренда к стандарту индустрии

Обучение ИИ на «неидеальных» данных скоро станет нормой. Этот сдвиг — от исключения к правилу — уже происходит под влиянием трех главных сил: рыночного спроса, внутренней логики развития технологий и регуляторов. Именно разнообразные данные — ключ к созданию по-настоящему доступных сервисов, которые должны работать для всех людей. Поэтому в Европе и США уже действуют законы, которые прямо требуют от госструктур и бизнеса соблюдать цифровую доступность. В России этот тренд тоже набирает обороты — через национальные ГОСТы и поправки в законы. В будущем совершенствование инклюзивного ИИ будет определяться системной разработкой универсальной и ответственной цифровой среды.

Технологии научатся с самого начала говорить с пользователем на его языке. Голос станет основным интерфейсом для пожилых людей и пользователей с особенностями здоровья. Вместо поиска в меню человек скажет: «Найди ближайшую аптеку с пандусом» — и голосовой агент учтет параметры доступности, о которых обычные карты молчат. Автономные ИИ-агенты превратят сложные задачи в один запрос: например, система самостоятельно заполнит заявление на льготу, сверит данные и предложит подписать.

Следующий сдвиг в развитии технологии произойдет, когда ИИ станет персональным компаньоном и наставником. Он сможет адаптироваться под особенности конкретного человека, помогая учиться, работать и сохранять самостоятельность. Для одного пользователя нейросеть разобьет сложную инструкцию на шаги с напоминаниями, для другого — переведет текст и выделит суть. Будущее инклюзивного ИИ — в балансе между универсальностью и персонализированной поддержкой.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости