Самые интересные новости AI и машинного обучения 24.07.2024

Много крутых новостей из мира машинного обучения, крутейшие опенсорс модели и еще много чего интересного, поехали.

✔️Gam.hp — инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях.

Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения — gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции «средней общей дисперсии» — метода, ранее применявшегося для множественной регрессии и канонических анализов. 

Это позволяет справедливо распределить общий R² между связанными предикторами, обеспечивая меру уникального и общего вклада каждого предиктора в пригодность модели.

Пакет gam.hp доступен для Windows и MacOS. Исходный код выложен на Github

phys.org

✔️Lean-STaR — как неформальные рассуждения могут улучшить формальное доказательство теорем.

Исследователи из университетов Carnegie Mellon и Tsinghua разработали Lean-STaR, фреймворк для автоматизированного доказательства теорем, объединяющий неформальные рассуждения с формальной проверкой. 

Этот подход, использующий языковые модели для генерации мыслей на естественном языке перед каждым шагом доказательства, достиг передовых результатов в среде Lean и обещает значительно продвинуть автоматизированные математические рассуждения и их применение в AI.

marktechpost.com

✔️Mosaic AI: Model Training и Fine Tune моделей GenAI.

Databricks открыла доступ к публичной предварительной версии Mosaic AI, инструменту для тонкой настройки или предварительного обучения широкого спектра моделей, включая Llama 3, Mistral, DBRX и другие. 

Fine Tune Llama 3 70B с датасетом в 10 млн слов будет стоить согласно тарифам 250 USD, 500 млн слов — 11,440 USD 

databricks.comm

✔️LOTUS: Фреймворк для создания наукоемких LLM-приложениq, которые могут рассуждают над данными.

LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.

В основе реализован  простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка. 

Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.

stanford-futuredata 

✔️Maestro: Оркестратор рабочих процессов от Netflix с открытым исходным кодом.

Maestro — это горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.  

Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д. 

Maestro поддерживает как ациклические, так и циклические рабочие процессы, а также включает множество шаблонов многократного использования, включая циклы foreach, подпроцессы, условные ветвления и т. д. Ознакомится с проектом можно в репозитории на Github

netflixtechblog.com

⚡️ Llama-3.1: Обновление семейства моделей

Llama 3.1 — набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.

Llama 3.1 — это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.

https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f

✔️Климатическая модель от Google: генерация недельной симуляции атмосферы всего за 9,2 секунды.

Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), — это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML). 

Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.

NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.

Google выложил исходный код и весовые коэффициенты модели NeuralGCM в открытый доступ на GitHub.

Minitron 8В и 4В:  Две новые pruned-модели на базе Nemotron-4 15B

✔️ Minitron — это семейство малых языковых моделей (SLMs), полученных путем экспериментального метода pruning модели Nemotron-4 15B (NVIDIA). 

Метод состоит из уменьшения embedding size, attention heads и промежуточной размерности MLP, после чего продолжается обучение с дистилляцией до финального результата.

Суть экспериментальности состоит в том, что для получения 8В и 4В из 15В требуется в 40 раз меньше обучающих токенов и это дает экономию вычислительных ресурсов почти в 1.8 раза по сравнению с классическим обучением.

Более подробно.

✔️Kling теперь доступна для всех.Kling создаёт крутые ролики и изображения по промптам.

✔️BlazeBVD: универсальный слепой метод дефликкеринга видео.

BlazeBVD — новый подход к слепой дефликкеризации видео (BVD) на основе масштабно-временной эквализации (STE), предназначенный для обработки низкокачественного видео с неизвестной деградацией мерцания. 

BlazeBVD использует гистограммные решения, используя сглаживание последовательности гистограмм для создания наборов сингулярных кадров, фильтрованных карт освещенности и масок экспозиции, что позволяет быстро и стабильно восстанавливать текстуру в случаях изменения освещенности и пере/недоэкспонирования. 

Этот метод не только упрощает сложность и потребление ресурсов при изучении видеоданных, но и объединяет модуль глобального удаления вспышек (GFRM), модуль локального удаления вспышек (LFRM) и легкую временную сеть (TCM), эффективно повышая согласованность видео и последовательность кадров. 

Экспериментальные результаты показывают, что BlazeBVD превосходит предыдущие работы как на синтетических, так и на реальных наборах данных, при этом скорость вывода модели увеличивается в 10 раз.

https://www.jiqizhixin.com/articles/2024-07-23

У себя в канале, я пишу дайджесты по самым интересным мл-моделям, обозреваю их и делюсь впечатлением от их работы, заходите.

Я продолжаю тестировать новую. LLama, а какие модели заинтересовали вас? Пишите в комментариях.

На сегодня все. Какое крутое время, чтобы быть мл-разработчиком) #news #digest #ml #ai

Источник: habr.com

0 0 голоса
Рейтинг новости
12208
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии