Андрей Карпати собрал «совет ИИ»: GPT-5.1, Gemini 3 Pro, Claude и Grok спорят за лучший ответ

Андрей Карпати, бывший директор по ИИ в Tesla, выложил на GitHub свой «проект выходного дня» — приложение llm-council. Оно похоже на привычный ChatGPT, но вместо одной модели внутри «совет ИИ» из нескольких языковых моделей, которые параллельно готовят варианты ответа на вопрос и выбирают лучший. В конфигурации Андрея это GPT-5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4. Подключение происходит через единый шлюз OpenRouter, при желании можно выбрать другие модели. Андрей говорит, что это был «проект выходного дня», который он собрал, чтобы читать книги вместе с несколькими моделями и наблюдать, как они спорят между собой.

Рабочий процесс устроен в три шага. Сначала каждая модель независимо отвечает на один и тот же запрос, и пользователь может просто сравнить варианты бок о бок. Затем модели получают анонимные ответы друг друга — без указания, кто из них где — и должны оценить и ранжировать варианты по качеству. На третьем шаге в игру вступает «председатель» совета, отдельная модель (Андрей выбрал Gemini 3 Pro): она видит исходный вопрос, все ответы и все оценки и на основании этого собирает финальный, «коллективно выверенный» ответ для пользователя.

«Совет ИИ» похож на подход GPT-5 Pro и Gemini 2.5 Deep Think, где несколько моделей также работают параллельно. Но в llm-council можно выбрать ИИ разных разработчиков, что позволяет лучше почувствовать сильные и слабые стороны разных моделей на своих, живых запросах, а не только по абстрактным бенчмаркам. Одновременно llm-council работает как карманный бенчмарк: можно смотреть, кого совет чаще ставит выше, как модели расходятся в оценках сложных текстов и насколько их рейтинги совпадают с человеческой интуицией.

Сам Карпати использует llm-council, чтобы вместе с моделями читать книги и разбирать сложные главы: разные ИИ предлагают свои пересказы и комментарии, а затем сами же объясняют, чей разбор им кажется удачнее. По его словам, совет почти всегда ставит GPT-5.1 на первое место как самую «глубокую и полезную» модель, а Claude стабильно оказывается внизу, с Gemini 3 Pro и Grok-4 где-то посередине. При этом сам Карпати не всегда согласен с этим «голосованием»: ответы GPT-5.1 он считает слишком многословными, в кто время как Gemini 3 Pro более собранна, а Claude — чрезмерно лаконичен. Решение «совета» может меняться в зависимости от выбора моделей и «председателя».

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”