OpenAI и Anthropic, два крупнейших соперника в сфере искусственного интеллекта, недавно провели взаимную оценку моделей, стремясь глубже понять проблемы, которые могли ускользнуть от их собственных тестов.
В публикациях на блогах обеих компаний в среду сообщалось, что летом они провели перекрёстные проверки безопасности доступных общественности моделей ИИ. Кроме того, исследовалась склонность систем к галлюцинациям и так называемым «несоответствиям» — ситуация, когда модель ИИ не выполняет того, чего ожидают её создатели.
Компании выступают заметными конкурентами — Anthropic была основана бывшими сотрудниками OpenAI, — что придаёт сотрудничеству особую значимость. В OpenAI назвали совместную инициативу «первым крупным межлабораторным экспериментом по тестированию безопасности и соответствия», подчеркнув, что этот шаг может стать «ценным путём к оценке безопасности на уровне всей индустрии».
Разработчики ИИ сталкиваются с растущим давлением: на них требуют сосредоточиться на безопасности продуктов после череды сообщений о вредном поведении моделей. На этой неделе против OpenAI подан иск: родители утверждают, что их сын-подросток совершил самоубийство, используя чат-бота в качестве «наставника».
Оценки проводились до выхода нового флагманского ИИ OpenAI — GPT-5 — и до обновления Anthropic своего Claude Opus до версии 4.1, представленной в начале августа.
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Источник: habr.com