Разработчики представили Reader-LM — языковую модель для конвертации HTML в Markdown

Разработчики Jina AI представили семейство языковых моделей Reader-LM, предназначенных для конвертации HTML в Markdown. Во время конвертации нейросеть удаляет лишнее из файла веб-разметки, структурирует информацию и записывает в формате .md.

В семейство Reader-LM доступно в компактных размерах 0,5B и 1,5B. При этом контекстное окно в 256 тыс. токенов. Модели мультиязычные, а обучали их на наборе синтетических данных, состоящих из пар «HTML-Markdown». Всего в корпус обучающих данных вошло 2,5 млрд токенов. Пары сгенерировали с помощью Jina Reader API и GPT-4o.

Производительность Reader-LM сравнили с большими языковыми моделями GPT-4o, Gemini-1.5-Flash, Gemini-1.5-Pro, LLaMA-3.1-70B и Qwen2-7B-Instruct. Оказалось, что нейросеть лучше справляется с конвертацией HTML в Markdown, но при этом в 50 раз меньше больших моделей.

Семейство моделей можно запустить в Google Collab или локально с помощью Transformers. Сами нейросети доступны на портале Hugging Face (0,5B и 1,5B). Там же развёрнуто демонстрационное приложение.

Источник: habr.com

0 0 голоса

Рейтинг новости

20321

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”