AI-системы учатся экономить память. Нейроновости недели

Концепция Нейронного Компьютера

Meta (запрещена в РФ) и KAUST предлагают концепцию Neural Computers: новый подход к генеративным моделям, где вычисления, память и ввод-вывод объединены в одном обучаемом состоянии. В отличие от традиционных компьютеров и AI-агентов, сама модель становится «исполняющим компьютером».

В классической архитектуре вычисления, память и ввод-вывод разделены на уровни. В нейронных компьютерах они сливаются в единое латентное состояние сети. Оно одновременно выступает памятью, вычислительной средой и интерфейсом — граница между программой и ее исполнением стирается.

Прототипом служат видеомодели, которые генерируют экранные кадры по инструкциям, пикселям и действиям пользователя. Созданы два варианта:

CLIGen — для командной строки, выполняет терминальные сценарии
GUIWorld — для графического интерфейса, работает с курсором, меню и окнами

Оба обучаются только на основе наблюдаемых интерфейсов — без доступа к внутреннему состоянию программ. Уже сейчас они осваивают базовое взаимодействие с интерфейсами и выполняют простые последовательности действий.

Почему это важно: исследователи формулируют долгосрочную цель — создание полностью нейронного компьютера, универсально программируемого и стабильного до явного изменения. Пока остаются серьезные вызовы: перенос навыков между сессиями, обновление без потери выученного и работа со сложными символическими структурами. Если их удастся решить, это может стать основой следующего поколения интеллектуальных систем.

Смысловые блоки для AI-моделей

Microsoft представил Memento: метод, который учит модель разбивать рассуждение на блоки, кратко суммировать каждый в компактное «мементо» и удалять исходный подробный текст из памяти. Модель продолжает работу, опираясь только на сжатые представления. Это снижает использование памяти в 2−3 раза и почти вдвое ускоряет вычисления.

Принцип работы — «разбить и сжать»: модель сама выделяет границы смысловых блоков, формирует резюме с ключевыми выводами и удаляет полный контекст блока. В памяти остаются только «мементо» и текущий активный фрагмент.

Эксперименты на моделях Qwen2.5−7B, Qwen3 (8B и 32B), Phi-4 Reasoning (14B) и OLMo3−7B-Think показали снижение нагрузки на KV-кэш в 2−3 раза при минимальной потере точности. На более крупных моделях эффект выражен еще слабее.

Почему это важно: сокращение длины контекста напрямую ускоряет инференс и почти удваивает пропускную способность системы. Это делает подход практичным там, где важны и скорость, и экономия вычислительных ресурсов.

Также на неделе:

Google разработала мультиагентную систему, которая превращает неструктурированные материалы в научные статьи с обзорами литературы и визуализациями
Cohere и Princeton University предлагают рассматривать обучение LLM как сжатие с потерями — модель сохраняет только ту информацию, которая релевантна ее целям
Apple представила метод дообучения моделей для задач программирования на основе ее же ответов
Shanghai Innovation Institute и другие институты показали фреймворк с архитектурой Manager-Planner-Executor: Manager хранит сжатые траектории поиска, Planner формирует стратегии, Executor — выполняет поиск и анализ
DreamX представила фреймворк SkillClaw — навыки AI-агентов развиваются за счет коллективного опыта взаимодействий разных пользователей
CMU, HKUST, Университет Цинхуа и другие показали бенчмарк ClawBench: AI-агентов тестируют на 144 веб-сайтах и 153 задачах — от бронирования авиабилетов до подачи заявок на работу
Anthropic выпустила Claude Opus 4.7 — модель стала лучше в генерации кода, следовании инструкциям и решении прикладных задач
MiniMax выложила в открытый доступ модель M2.7, которая по большинству бенчмарков обходит Gemini 3.1 Pro, Claude Opus 4.6 и GPT-5.4
OpenAI и Cloudflare запустили платформу для внедрения AI-агентов в рабочие процессы

Новости представлены аналитическим центром red_mad_robot.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости