OpenAI и Anthropic объединяются для исследований в области галлюцинаций и джейлбрейкинга

OpenAI и Anthropic, два крупнейших соперника в сфере искусственного интеллекта, недавно провели взаимную оценку моделей, стремясь глубже понять проблемы, которые могли ускользнуть от их собственных тестов.

В публикациях на блогах обеих компаний в среду сообщалось, что летом они провели перекрёстные проверки безопасности доступных общественности моделей ИИ. Кроме того, исследовалась склонность систем к галлюцинациям и так называемым «несоответствиям» — ситуация, когда модель ИИ не выполняет того, чего ожидают её создатели.

Компании выступают заметными конкурентами — Anthropic была основана бывшими сотрудниками OpenAI, — что придаёт сотрудничеству особую значимость. В OpenAI назвали совместную инициативу «первым крупным межлабораторным экспериментом по тестированию безопасности и соответствия», подчеркнув, что этот шаг может стать «ценным путём к оценке безопасности на уровне всей индустрии».

Разработчики ИИ сталкиваются с растущим давлением: на них требуют сосредоточиться на безопасности продуктов после череды сообщений о вредном поведении моделей. На этой неделе против OpenAI подан иск: родители утверждают, что их сын-подросток совершил самоубийство, используя чат-бота в качестве «наставника».

Оценки проводились до выхода нового флагманского ИИ OpenAI — GPT-5 — и до обновления Anthropic своего Claude Opus до версии 4.1, представленной в начале августа.

Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”