Много крутых новостей из мира машинного обучения, крутейшие опенсорс модели и еще много чего интересного, поехали.
✔️Gam.hp — инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях.
Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения — gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции «средней общей дисперсии» — метода, ранее применявшегося для множественной регрессии и канонических анализов.
Это позволяет справедливо распределить общий R² между связанными предикторами, обеспечивая меру уникального и общего вклада каждого предиктора в пригодность модели.
Пакет gam.hp доступен для Windows и MacOS. Исходный код выложен на Github
phys.org
✔️Lean-STaR — как неформальные рассуждения могут улучшить формальное доказательство теорем.
Исследователи из университетов Carnegie Mellon и Tsinghua разработали Lean-STaR, фреймворк для автоматизированного доказательства теорем, объединяющий неформальные рассуждения с формальной проверкой.
Этот подход, использующий языковые модели для генерации мыслей на естественном языке перед каждым шагом доказательства, достиг передовых результатов в среде Lean и обещает значительно продвинуть автоматизированные математические рассуждения и их применение в AI.
marktechpost.com
✔️Mosaic AI: Model Training и Fine Tune моделей GenAI.
Databricks открыла доступ к публичной предварительной версии Mosaic AI, инструменту для тонкой настройки или предварительного обучения широкого спектра моделей, включая Llama 3, Mistral, DBRX и другие.
Fine Tune Llama 3 70B с датасетом в 10 млн слов будет стоить согласно тарифам 250 USD, 500 млн слов — 11,440 USD
databricks.comm
✔️LOTUS: Фреймворк для создания наукоемких LLM-приложениq, которые могут рассуждают над данными.
LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.
В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка.
Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.
stanford-futuredata
✔️Maestro: Оркестратор рабочих процессов от Netflix с открытым исходным кодом.
Maestro — это горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.
Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д.
Maestro поддерживает как ациклические, так и циклические рабочие процессы, а также включает множество шаблонов многократного использования, включая циклы foreach, подпроцессы, условные ветвления и т. д. Ознакомится с проектом можно в репозитории на Github
netflixtechblog.com
⚡️ Llama-3.1: Обновление семейства моделей
Llama 3.1 — набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.
Llama 3.1 — это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.
https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
✔️Климатическая модель от Google: генерация недельной симуляции атмосферы всего за 9,2 секунды.
Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), — это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML).
Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.
NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.
Google выложил исходный код и весовые коэффициенты модели NeuralGCM в открытый доступ на GitHub.
Minitron 8В и 4В: Две новые pruned-модели на базе Nemotron-4 15B
✔️ Minitron — это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA).
Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата.
Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением.
Более подробно.
✔️Kling теперь доступна для всех.Kling создаёт крутые ролики и изображения по промптам.
✔️BlazeBVD: универсальный слепой метод дефликкеринга видео.
BlazeBVD — новый подход к слепой дефликкеризации видео (BVD) на основе масштабно-временной эквализации (STE), предназначенный для обработки низкокачественного видео с неизвестной деградацией мерцания.
BlazeBVD использует гистограммные решения, используя сглаживание последовательности гистограмм для создания наборов сингулярных кадров, фильтрованных карт освещенности и масок экспозиции, что позволяет быстро и стабильно восстанавливать текстуру в случаях изменения освещенности и пере/недоэкспонирования.
Этот метод не только упрощает сложность и потребление ресурсов при изучении видеоданных, но и объединяет модуль глобального удаления вспышек (GFRM), модуль локального удаления вспышек (LFRM) и легкую временную сеть (TCM), эффективно повышая согласованность видео и последовательность кадров.
Экспериментальные результаты показывают, что BlazeBVD превосходит предыдущие работы как на синтетических, так и на реальных наборах данных, при этом скорость вывода модели увеличивается в 10 раз.
https://www.jiqizhixin.com/articles/2024-07-23
У себя в канале, я пишу дайджесты по самым интересным мл-моделям, обозреваю их и делюсь впечатлением от их работы, заходите.
Я продолжаю тестировать новую. LLama, а какие модели заинтересовали вас? Пишите в комментариях.
На сегодня все. Какое крутое время, чтобы быть мл-разработчиком) #news #digest #ml #ai
Источник: habr.com