Microsoft выпустила MarkItDown — открытый инструмент для преобразования файлов и офисных документов в Markdown. Проект также доступен в виде онлайн‑версии. Например, там можно сконвертировать файлы из Office в язык разметки с синтаксисом форматирования простого текста Markdown.
Решение MarkItDown написано на языке программирования Python и опубликовано на GitHub под лицензией MIT.
Библиотека MarkItDown от Microsoft в настоящее время поддерживает следующие форматы файлов: PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx), изображения (метаданные EXIF и OCR), аудио (метаданные EXIF и транскрипция речи), HTML (специальная обработка Wikipedia), а также различные другие текстовые форматы (csv, json, xml и так далее) и даже ZIP‑файлы (после процесса перебирания содержимого).
Microsoft пояснила, что разработчики также могут настроить библиотеку MarkItDown для использования больших языковых моделей для описания изображений. Поскольку библиотека MarkItDown доступна по лицензии MIT с открытым исходным кодом, разработчики могут свободно использовать, изменять и распространять её. Единственное требование — включить в дистрибутив исходную лицензию и уведомление об авторских правах.
Источник: habr.com