Стали известны результаты, полученные открытой системой «Писец» на ежегодном «Тотальном диктанте», который прошёл 20 апреля. Систему разработал научный сотрудник Лаборатории прикладных цифровых технологий Международного научно‑образовательного математического центра НГУ и сооснователь стартапа «Сибирские нейросети» Иван Бондаренко.
Искусственный интеллект впервые соревновался в грамотности с людьми в рамках диктанта, и создатель «Писца» полагал, что положительной оценки тот не получит. Бондаренко думал, что система допустит минимум орфографических ошибок, однако с расстановкой знаков препинания вряд ли справится.
Разработчикам «Писца» было важно собрать статистику о разнообразии совершаемых им ошибок и неточностей, чтобы в дальнейшем усовершенствовать систему. Результаты оказались неожиданными, но закономерными — «Писец» вполне удовлетворительно расставил запятые и разбил текст на абзацы.
Для этого его специально научили улавливать в речи «кодовые фразы» вроде «пишем с красной строки» или «переходим на новый абзац». Для этого использовали отдельную нейросеть, обученную на базе Longformer выделять такие «внесюжетные» вставки наподобие системы NER (Named Entity Recognition — распознавание именованных сущностей). Для обучения использовали синтетический текстовый корпус. Сам же «Писец» использовал в своей работе связку Wav2Vec2-Large‑Ru‑Golos + Whisper‑Podlodka. Однако галлюцинаций избежать не удалось.
Галлюцинация — это ответ авторегрессионной нейросетевой модели языка, который корректен грамматически, но неверен семантически (не соответствует входному запросу по смыслу).
«„Писцу“ вполне можно было бы поставить твердую „тройку“, если бы не несколько обстоятельств. Из 276 слов диктанта он пропустил шесть, пять из которых стояли в конце предложения, причем в этих случаях он не ставил точку, но следующее предложение начинал с заглавной буквы. В одном месте пропустил предлог „в“, шедший предпоследним в предложении. Еще семь слов им было услышано неверно. Например, вместо „наивысшего“ искусственный интеллект написал „наявившего“. Другой пример словотворчества — „кальиончатых“ вместо „клеенчатых“. Встретилось и неверно услышанное выражение „Читай — не хочу“. Вместо него написано „Считай, не хотите“, свидетельствующее и о проблемах с грамматикой. С грамматикой обнаружились еще проблемы в написании окончаний — „синями“ (вместо „синими“) и „портрет… гимназисткЕ“ (правильно: „портрет … гимназистки“), что уже засчитывается за орфографическую ошибку. Еще одна „ослышка“ привела к искажению смысла предложения, но в итоге было все же написано правильно», — разобрала ошибки «Писца» старший преподаватель кафедры источниковедения литературы и древних языков Гуманитарного Института НГУ Людмила Буднева.
В тех местах, где «Писец» все слова услышал верно, он написал диктант хорошо — на границе между «тройкой» и «четвёркой». Такого результата его разработчики не ожидали.
Изначально систему разрабатывали для автоматического стенографирования звукозаписей интервью или защит диссертаций. Даже 20–30% ошибок в расшифрованных текстах — это уже тот уровень, который позволяет человеку гораздо быстрее подготовить чистовой текст стенограммы, чем если бы он писал его «с нуля», прослушивая запись полностью самостоятельно.
Опираясь на результаты «Писца», полученные на «Тотальном диктанте», разработчики уже наметили ближайшие направления исследований. В их числе повышение устойчивости Whisper‑Podlodka к шумам различного рода, которые искусственно добавляются в сигнал с помощью системы аугментатора аудиофайлов, а также дальнейшее погружение в исследование метода минимизации байесовского инвариантного риска, исследование ограничений и слабых мест этого подхода, создание более эффективной модели среды с точки зрения акустики и лингвистики.
Источник: habr.com