Microsoft разработала ИИ-систему SpreadsheetLLM для работы с таблицами в Excel

Microsoft разработала ИИ-систему под названием SpreadsheetLLM, которая использует большие языковые модели для анализа и интерпретации данных электронных таблиц в Excel. Инструмент обеспечивает обработку обширных двумерных сеток, гибкие макеты и различные варианты форматирования путём сериализации данных и включения адресов ячеек, значений и форматов в их поток.

Инструмент включает в себя компонент, который сжимает электронные таблицы. Он состоит из трёх модулей: один анализирует структуру электронной таблицы и отбрасывает нетабличное содержимое; другой переводит данные в более эффективное представление; третий агрегирует данные.

SpreadsheetLLM в своей текущей форме имеет некоторые ограничения. Например, инструмент игнорирует цвета фона ячеек. Ему также не хватает семантического сжатия для ячеек, содержащих естественный язык.

Тем не менее, в тестах он превзошёл традиционные подходы на 25,6% в условиях контекстного обучения GPT-4. Кроме того, SheetCompressor сокращает использование токенов для кодирования электронных таблиц на 96%, что значительно снижает вычислительные затраты. Так, электронная таблица, содержащая 576 строк и 23 столбца, которые в противном случае дали бы 61 240 токенов, может быть уменьшена до более компактного представления из 708 токенов.

Этот инструмент может упростить обработку данных в нескольких отраслях, решая задачи бухгалтерского учета и анализа данных. SpreadsheetLLM позволит нетехническим пользователям запрашивать данные электронных таблиц и манипулировать ими, используя подсказки на естественном языке. 

Также инструмент может дополнять работу специалистов в области финансов, бухгалтерского учета и других, требующих анализа больших объёмов данных. Например, в модели представлена ​​структура «Цепочки электронных таблиц» (CoS), которая может разложить рассуждения по электронным таблицам в конвейер «обнаружение-соответствие-рассуждение».

Более интригующей является способность модели работать как со структурированными, так и с неструктурированными данными электронных таблиц. По мнению исследователей, этот аспект потенциально может уменьшить галлюцинации в результатах, генерируемых ИИ, а электронная таблица будет служить «источником истины» для повышения надёжности анализа.

SpreadsheetLLM пока находится на стадии исследования.

Ранее компания открыла доступ к надстройке Python Editor в Excel в Windows для участников программы Microsoft 365 Insider на бета-канале.

Источник: habr.com

0 0 голоса
Рейтинг новости
905
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии