Андрей Карпати, бывший директор по ИИ в Tesla, выложил на GitHub свой «проект выходного дня» — приложение llm-council. Оно похоже на привычный ChatGPT, но вместо одной модели внутри «совет ИИ» из нескольких языковых моделей, которые параллельно готовят варианты ответа на вопрос и выбирают лучший. В конфигурации Андрея это GPT-5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4. Подключение происходит через единый шлюз OpenRouter, при желании можно выбрать другие модели. Андрей говорит, что это был «проект выходного дня», который он собрал, чтобы читать книги вместе с несколькими моделями и наблюдать, как они спорят между собой.
Рабочий процесс устроен в три шага. Сначала каждая модель независимо отвечает на один и тот же запрос, и пользователь может просто сравнить варианты бок о бок. Затем модели получают анонимные ответы друг друга — без указания, кто из них где — и должны оценить и ранжировать варианты по качеству. На третьем шаге в игру вступает «председатель» совета, отдельная модель (Андрей выбрал Gemini 3 Pro): она видит исходный вопрос, все ответы и все оценки и на основании этого собирает финальный, «коллективно выверенный» ответ для пользователя.
«Совет ИИ» похож на подход GPT-5 Pro и Gemini 2.5 Deep Think, где несколько моделей также работают параллельно. Но в llm-council можно выбрать ИИ разных разработчиков, что позволяет лучше почувствовать сильные и слабые стороны разных моделей на своих, живых запросах, а не только по абстрактным бенчмаркам. Одновременно llm-council работает как карманный бенчмарк: можно смотреть, кого совет чаще ставит выше, как модели расходятся в оценках сложных текстов и насколько их рейтинги совпадают с человеческой интуицией.
Сам Карпати использует llm-council, чтобы вместе с моделями читать книги и разбирать сложные главы: разные ИИ предлагают свои пересказы и комментарии, а затем сами же объясняют, чей разбор им кажется удачнее. По его словам, совет почти всегда ставит GPT-5.1 на первое место как самую «глубокую и полезную» модель, а Claude стабильно оказывается внизу, с Gemini 3 Pro и Grok-4 где-то посередине. При этом сам Карпати не всегда согласен с этим «голосованием»: ответы GPT-5.1 он считает слишком многословными, в кто время как Gemini 3 Pro более собранна, а Claude — чрезмерно лаконичен. Решение «совета» может меняться в зависимости от выбора моделей и «председателя».
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com