Исследователи представили систему, которая автоматически генерирует экспертный код для научных задач и уже обходит людей на профессиональных лидербордах. Это не просто ещё один генератор кода, а инструмент, который способен думать как учёный и создавать решения, до которых человеческий разум порой не может дойти самостоятельно.
Схема и производительность нашего метода. (a) Схема нашего метода. Задача с возможностью оценки, вместе с исследовательскими идеями, предлагающими методы решения задачи, подаются в LLM, которая генерирует код для оценки задачи в «песочнице». Затем это встраивается в алгоритм поиска по дереву, где новые узлы выбираются с балансировкой использования и исследования, выборка из LLM (методы). (b) Производительность методов генерации кода на бенчмарке Kaggle Playground. Результаты показывают среднюю производительность в процентилях публичной таблицы лидеров по 16 задачам. Методы, основанные на нашем методе, выделены жирным шрифтом. Полосы ошибок указывают стандартное отклонение. BDT — boosted decision tree (дерево решений с повышением градиента). (c) Механизмы, используемые для создания первоначальных исследовательских идей для решения научных проблем.
Система построена на LLM Gemini и управляется алгоритмом древовидного поиска (Tree Search). В отличие от простого компилирования кода, ИИ итеративно улучшает существующие решения, стремясь максимизировать конкретную метрику качества («score») на реальных данных. Учёные называют такие задачи «scorable tasks».
Производительность поиска по дереву при пакетной интеграции scRNA-seq. (a) Схема задачи пакетной интеграции, в которой разрозненные наборы данных (бирюзовый и красный) обрабатываются для удаления пакетных эффектов при сохранении биологической изменчивости. (b) Производительность поиска по дереву (названия методов выделены жирным шрифтом и имеют суффикс «(TS)») по сравнению с аналогичным опубликованным методом на бенчмарке OpenProblems v2.0.0. «Perfect embedding by celltype with jitter» — положительный контрольный метод, представляющий наилучшую возможную производительность, а «Shuffle integration by batch» — отрицательный контроль, который не выполняет никакой пакетной интеграции. Общий балл — это среднее значение по всем наборам данных и метрикам. Каждый столбец «Наборы данных» показывает среднее значение всех метрик, вычисленных по этому набору данных. Каждый столбец «Метрики» показывает среднее значение этой метрики, вычисленное по всем наборам данных. Метрикам присваивалось значение 0, если их не удалось вычислить или если их производительность была хуже, чем у самого низкого отрицательного контроля; они отображаются как пустые. (c) Улучшения производительности с аннотациями инноваций кода для наиболее эффективной реализации BBKNN (batch balanced k-nearest neighbors). Генерация встраивания на основе ComBat была введена в попытке реализации 429. (d) Общий балл для методов, не являющихся контрольными, в бенчмарке OpenProblems v2.0.0, наш метод с рекомбинацией идей и без нее, Gemini Deep Research и наш метод с AI co-scientist. Нижняя граница оси Y — это общий балл отрицательного контрольного метода «Shuffle integration by batch». Семь рекомбинаций, пять базовых методов и два метода AI co-scientist, которые не соответствуют его производительности, опущены. * указывает, что метод является рекомбинацией, даже если явно не запрашивалась рекомбинация.
Результаты впечатляют. В биоинформатике (scRNA-seq) система предложила 40 новых методов интеграции данных single-cell, превзойдя лучшие человеческие подходы на OpenProblems. ИИ не просто повторил известный метод BBKNN, а улучшил его, скомбинировав с алгоритмом ComBat (решение, до которого люди бы дошли только после длительных экспериментов).
Производительность поиска по дереву в прогнозировании COVID-19. (a) Скользящее окно валидации, используемое для экспериментов по прогнозированию. Выходные данные каждого поиска проверяются на предшествующем блоке времени (синий), а результирующая модель затем используется для прогнозирования на соответствующий период (оранжевый). (b) Таблица лидеров с еженедельной производительностью прогнозирования (средний WIS) для команд-участниц и нашей модели «Google Retrospective». Оценки агрегируются по всем 52 юрисдикциям и четырем горизонтам прогнозирования. Число в каждой ячейке — абсолютный средний WIS модели за эту неделю. Цвет фона ячейки визуализирует производительность относительно CovidHub-ensemble, где синий цвет указывает на более низкий (лучший) WIS, а красный — на более высокий (худший) WIS. (c) Прямое сравнение ошибки прогнозирования (средний WIS) на уровне юрисдикций между нашей моделью и «CovidHub-ensemble». (d) Географическое распределение ошибки прогнозирования нашей модели (средний WIS). (e) Сравнение совокупной производительности прогнозирования для различных стратегий моделирования. 14 стратегий превосходят официальный CovidHub-ensemble за 3-недельный период оценки.
В эпидемиологии ИИ сгенерировал 14 моделей прогнозирования госпитализаций во время сезона 2024/25, которые стабильно опережали как ансамбли CDC, так и отдельные человеческие модели. Кроме того, система показала SOTA в сегментации спутниковых снимков (DLRSD benchmark), прогнозировании нейронной активности целого мозга zebrafish (ZAPBench), прогнозах временных рядов (GIFT-Eval) и численном решении сложных интегралов, где стандартные библиотеки, например scipy.integrate.quad(), часто терпят неудачу.
UMAP (равномерное многообразие аппроксимации и проекции) проекция BBKNN (TS) на наборе данных «Атлас иммунных клеток». a) Проекция UMAP, окрашенная по типу клеток, показывает кластеры, специфичные для типа клеток. b) Проекция UMAP, окрашенная по партии данных, показывает хорошее смешивание партий по всему набору данных.
Принцип работы системы основан на интеграции существующих решений с генерацией мутаций кода и древовидном поиске оптимальных веток. На каждом шаге выбирается наиболее перспективная стратегия, сочетая улучшение текущего метода с исследованием радикально новых подходов. Система умеет использовать научные статьи: ей можно предоставить PDF с описанием метода, и ИИ реализует предложенный подход. Более того, он способен комбинировать идеи из разных источников, создавая гибридные решения, которые приводят к настоящим прорывам.
Производительность базовых методов и наших реплик. (a) Общие баллы на контрольных наборах данных OpenProblems для всех реплик методов, оцененных на рис. 2. Точки — общий балл реплики. Полоса — производительность реплики с наилучшей производительностью в проверочном наборе данных (рис. 2). Реплики с наихудшей производительностью для BBKNN, Scanorama и TabVI успешно рассчитали только 30, 57 и 45 из 78 метрик соответственно. (b) Средние баллы для каждого метода при ограничении только комбинациями (метод, набор данных, метрика), которые имеют не NaN значения для базового метода и всех трех реплик поиска по дереву.
Этот инструмент не заменяет учёных, но существенно расширяет их возможности. То, что ранее занимало недели или месяцы, теперь ИИ способен проработать за часы, перебирая тысячи вариантов и выявляя нетривиальные решения, которые ведут к качественному скачку. Для эмпирической науки это один из самых мощных инструментов, когда-либо созданных, охватывающий биологию, медицину, климатологию, астрофизику и многие другие области.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник
Источник: habr.com