Composo помогает предприятиям отслеживать эффективность работы приложений AI

Искусственный интеллект и большие языковые модели (LLM), которые его поддерживают, имеют массу полезных применений, но, несмотря на все свои обещания, они не очень надежны. Никто не знает, когда эта проблема будет решена, поэтому вполне логично, что мы видим, как стартапы находят возможность помочь предприятиям обеспечить работу приложений на базе LLM, за которые они платят, как задумано. Лондонский стартап Composo считает, что у него есть все шансы решить эту проблему благодаря своим индивидуальным моделям, которые могут помочь предприятиям оценить точность и качество приложений, работающих на базе LLM.

Компания похожа на Agenta, Freeplay, Humanloop и LangSmith, которые как все заявляют, предлагают более надежную альтернативу на основе LLM для человеческого тестирования, контрольных списков и существующих инструментов наблюдения. Но Composo утверждает, что она отличается тем, что предлагает как вариант без кода, так и API. Это примечательно, поскольку это расширяет сферу ее потенциального рынка — вам не нужно быть разработчиком, чтобы использовать его, а эксперты в предметной области и руководители могут самостоятельно оценивать приложения AI на предмет несоответствий, качества и точности.

На практике Composo объединяет модель вознаграждения, обученную на выходных данных, которые человек предпочел бы видеть в приложении AI, с определенным набором критериев, которые являются специфичными для этого приложения, чтобы создать систему, которая по сути оценивает выходные данные приложения по этим критериям. Например, чат-бот медицинской сортировки может установить пользовательские руководства для проверки симптомов опасности, и Composo может оценить, насколько последовательно приложение это делает.

Недавно компания запустила публичный API для Composo Align — модели оценки заявок на получение степени LLM по любым критериям.

Стратегия, кажется, работает в некоторой степени: у нее есть такие клиенты, как Accenture, Palantir и McKinsey, и она недавно привлекла 2 миллиона долларов в рамках предварительного финансирования. Но по словам соучредителя и генерального директора Composo Себастьяна Фокса, относительно небольшая сумма объясняется тем, что подход стартапа не особенно капиталоемкий.

«По крайней мере в течение следующих трех лет мы не предполагаем привлекать сотни миллионов, потому что есть много людей, которые строят базовые модели и делают это очень эффективно, и это не наша уникальная торговая позиция», — сказал Фокс, бывший консультант McKinsey. «Вместо этого каждое утро, если я просыпаюсь и вижу новость о том, что OpenAI совершил огромный прорыв в своих моделях, это хорошо для моего бизнеса».

С новыми средствами Composo планирует расширить свою инженерную команду (во главе с соучредителем и техническим директором Люком Маркхэмом, бывшим инженером по машинному обучению в Graphcore), привлечь больше клиентов и усилить свои усилия в исследованиях и разработках. «Фокус в этом году гораздо больше на масштабировании технологии, которая у нас теперь есть, в этих компаниях», — сказал Фокс.

Британский фонд предварительного посевного финансирования AI Twin Path Ventures возглавил посевной раунд, в котором также приняли участие JVH Ventures и EWOR (последний поддержал стартап через свою программу акселерации). «Composo устраняет критическое узкое место во внедрении корпоративного AI», — заявил представитель Twin Path в своем заявлении.

Это узкое место является большой проблемой для всего движения AI, особенно в корпоративном сегменте, сказал Фокс. «Люди вышли из ажиотажа и теперь думают: «Ну, на самом деле, это действительно что-то меняет в моем бизнесе в его нынешнем виде? Потому что это недостаточно надежно и недостаточно последовательно. И даже если это так, вы не сможете доказать мне, насколько это важно», — сказал он.

Это может сделать Composo более ценным для компаний, которые хотят внедрить AI, но могут понести репутационный риск из-за этого. Фокс говорит, что именно поэтому его компания решила быть отраслевой агностикой, но при этом иметь резонанс в сферах соответствия, юриспруденции, здравоохранения и безопасности.

Что касается конкурентного преимущества, Fox считает, что R&D, необходимые для достижения этой цели, нетривиальны. «Есть и архитектура модели, и данные, которые мы использовали для ее обучения», — сказал он, объяснив, что Composo Align обучался на большом наборе данных экспертных оценок.

Все еще остается вопрос о том, что могли бы сделать технологические гиганты, если бы они просто задействовали свои огромные военные сундуки, чтобы войти в эту проблему, но Composo считает, что у нее есть преимущество первопроходца. «Другое что — это данные, которые мы накапливаем с течением времени», — сказал Фокс, имея в виду, как Composo выстроила предпочтения оценки.

Поскольку Composo оценивает приложения по гибкому набору критериев, она также считает себя более подходящей для развития агентного AI, чем конкуренты, которые используют более ограниченный подход. «По моему мнению, мы определенно не на той стадии, когда агенты работают хорошо, и это на самом деле то, что мы пытаемся помочь решить», — сказал Фокс.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии