Группа японских ученых из лаборатории NTT, Inc показала систему, которая по данным функциональной МРТ генерирует текстовые описания того, что человек вспоминает, представляет или видит. В отличие от более ранних экспериментов, где удавалось распознавать лишь общие категории вроде «человек» или «пейзаж», теперь формируются более подробные тексты вроде «собака прыгает в воду» или «мужчина идет по пляжу». Авторы называют это «подписи к мыслям» (mind-captioning).
В процессе обучения системы участникам показывали множество коротких клипов и одновременно записывали активность мозга на фМРТ. На текстовых описаниях роликов тренировали языковую модель, получая семантические признаки. Затем для каждого признака обучали декодеры, которые по его паттернам мозговой активности предсказывают эти признаки. После обучения испытуемого просили просто вспомнить ранее увиденную сцену — система подбирала формулировку, максимально согласующуюся с тем, что «читалось» по фМРТ.
Тесты показали, что самые точные подписи получаются тогда, когда участник смотрит то же самое видео или пытается его вспомнить. Если участник видит или представляет что-то новое, то точность падает: модель чаще уходит в общие формулировки и ошибается в деталях. Но даже в этих случаях иногда получалось подобрать по формулировку — ученые видят в этом потенциал для построения будущих неинвазивных интерфейсов «мозг—текст».
На данном этапе модель нужно долго настраивать под конкретного человека, а фМРТ — медленный и дорогой метод. Но в перспективе такие технологии могут стать каналом общения для людей, утративших речь или возможность двигаться, а также инструментом для изучения того, как мозг кодирует не только объекты, но и действия и связи между ними.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com