Инструменты для написания кода на основе ИИ переместились в неожиданное место: в терминал

В течение многих лет такие инструменты для редактирования кода, как Cursor, Windsurf и Copilot от GitHub, были стандартом для разработки программного обеспечения на основе искусственного интеллекта. Но по мере того, как агентный ИИ становится всё более мощным, а вайб-кодинг набирает обороты, небольшие изменения происходят и в том, как системы ИИ взаимодействуют с программным обеспечением.

Вместо того чтобы работать с кодом, они всё чаще взаимодействуют напрямую с оболочкой той системы, в которой установлены. Это существенное изменение в процессе разработки программного обеспечения на основе ИИ, и, несмотря на то, что оно не так заметно, оно может существенно повлиять на дальнейшее развитие отрасли.

Терминал больше всего известен как чёрно-белый экран, который вы помните по фильмам о хакерах 90-х годов. Это очень старый способ запуска программ и работы с данными. Он не так впечатляет визуально, как современные редакторы кода, но это чрезвычайно мощный интерфейс, если знать, как им пользоваться. И хотя агенты на основе кода могут писать и отлаживать код, для преобразования написанного кода в нечто, что можно использовать, часто требуются терминальные инструменты.

Самый явный признак перехода на терминал — это продукты крупных лабораторий. С февраля Anthropic, DeepMind и OpenAI выпустили инструменты для программирования в командной строке (Claude Code, Gemini CLI и CLI Codex соответственно), и они уже входят в число самых популярных продуктов компаний.

Этот сдвиг было легко не заметить, поскольку они в основном работают под тем же брендом, что и предыдущие инструменты для программирования. Но на самом деле произошли реальные изменения в том, как агенты взаимодействуют с другими компьютерами как онлайн, так и офлайн. Некоторые считают, что эти изменения только начинаются.

«Наша главная ставка на том, что в будущем 95% взаимодействия LLM с компьютером будет осуществляться через интерфейс, подобный терминалу», — говорит Майк Меррилл, соавтор ведущего ориентированного на терминалы бенчмарка Terminal-Bench.

Терминальные инструменты уже набирают популярность, в то время как известные инструменты на основе кода начинают сдавать позиции. Редактор кода на основе ИИ Windsurf был разделён в результате двух конкурирующих сделок: топ-менеджеры были наняты Google, а оставшаяся часть компании была приобретена Cognition, что поставило под угрозу долгосрочное будущее потребительского продукта.

В то же время новое исследование показывает, что программисты могут переоценивать повышение производительности за счёт обычных инструментов. Исследование METR при тестировании Cursor Pro, главного конкурента Windsurf, показало, что разработчики переоценили свои возможности. Вместо ожидаемого ускорения на 20–30% производительность оказалась ниже на 20%. Иными словами, помощник по написанию кода на самом деле отнимал у программистов время.

Это открыло возможности для таких компаний, как Warp, которая в настоящее время занимает первое место в рейтинге Terminal-Bench. Warp позиционирует себя как «агентную среду разработки», занимающую промежуточное положение между IDE и инструментами командной строки, такими как Claude Code.

Но основатель Warp Зак Ллойд по-прежнему с оптимизмом смотрит на терминал, видя в нём способ решения проблем, которые не под силу такому редактору кода, как Cursor.

«Терминал занимает очень низкое место в стеке разработчика, поэтому это наиболее универсальное место для запуска агентов», — говорит Ллойд.

Чтобы понять, чем отличается новый подход, полезно взглянуть на тесты, которые используются для их оценки. Генерация инструментов на основе кода была направлена на решение проблем GitHub, которые легли в основу теста SWE-Bench. Каждая задача в SWE-Bench — это открытая проблема на GitHub, то есть неработающий фрагмент кода.

Модели перебирают код до тех пор, пока не найдут что-то работающее, что решит проблему. Интегрированные продукты, такие как Cursor, предлагают более сложные подходы к решению проблемы, но модель GitHub/SWE-Bench по-прежнему лежит в основе того, как эти инструменты решают проблему: они начинают с неработающего кода и превращают его в рабочий.

Терминальные инструменты позволяют взглянуть шире, не ограничиваясь кодом, а охватывая всю среду, в которой работает программа. Это касается не только написания кода, но и более ориентированных на DevOps задач, таких как настройка сервера Git или устранение неполадок, из-за которых скрипт не запускается.

В одной из задач TerminalBench в инструкциях приводится программа для распаковки и целевой текстовый файл, а агенту предлагается реконструировать соответствующий алгоритм сжатия. В другой задаче агенту предлагается собрать ядро Linux из исходного кода, при этом не упоминается, что агенту придётся самому загрузить исходный код. Для решения этих задач требуется упорство, необходимое программистам.

«Сложность TerminalBench заключается не только в вопросах, которые мы задаём агентам, — говорит один из создателей Terminal-Bench Алекс Шоу. — Дело в средах, в которых мы их размещаем».

Важно отметить, что этот новый подход предполагает поэтапное решение проблемы — именно этот навык делает агентный ИИ таким мощным. Но даже самые современные агентные модели не могут справиться со всеми этими средами. Warp получил высокий балл в Terminal-Bench, решив чуть больше половины задач. Это говорит о том, насколько сложен этот тест и как много ещё предстоит сделать, чтобы полностью раскрыть потенциал терминала.

Тем не менее Ллойд считает, что мы уже достигли того уровня, когда инструменты на основе терминалов могут надёжно выполнять большую часть работы разработчика, не связанную с написанием кода. Такое ценностное предложение трудно игнорировать.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии