Ученые из Университета Тафтса выявили, почему искусственный интеллект (ИИ) плохо справляется с разговорной речью, хотя это кажется таким простым для человека. Исследование показывает, что ключевая проблема лежит в основном наборе данных, на котором обучались современные ИИ.
Когда люди ведут разговор, они интуитивно понимают, когда можно вставить реплику или продолжить слушать. Это происходит благодаря способности определять «переходные точки», в которых собеседник может сменить говорящего. Ученые подчеркивают, что такой механизм общения основывается на смысловом содержании речи, а не только на паузах или интонации.
По словам профессора психологии и информатики JP de Ruiter, раньше считалось, что именно интонации и визуальные сигналы помогают определять такие моменты в беседе. Однако, как показали эксперименты, смысловая часть является более значимой: даже при однотонной подаче текста люди всё равно угадывают подходящие переходные моменты, в отличие от ИИ.
ИИ-системы обучались в основном на письменных текстах, включая статьи, обсуждения и справочную информацию, но не на расшифровках реальных разговоров. Живой разговор более неформален, короток и проще по структуре, что отличает его от стандартной письменной речи, и из-за этого ИИ не имеет опыта работы с естественными речевыми потоками.
Ученые полагают, что для улучшения способности ИИ к разговору его нужно дообучить на базе естественных диалогов. Однако это пока остаётся сложной задачей: данные разговорной речи в огромном масштабе пока недоступны.
arXivИсточник: www.ferra.ru