Подрядчики, работающие над улучшением AI Gemini от Google, сравнивают его ответы с результатами, произведенными конкурентной моделью Claude от Anthropic, сообщает TechCrunch. Google не сообщила, получила ли она разрешение на использование Claude для тестирования против Gemini. Пока технологические компании стремятся создавать лучшие модели AI, производительность этих моделей часто оценивается по сравнению с конкурентами, обычно путем тестирования своих моделей по отраслевым стандартам, а не ручной оценки ответов конкурентов подрядчиками.
Подрядчики, работающие над Gemini и оценивающие точность его ответов, должны оценивать каждый ответ по нескольким критериям, таким как правдивость и многословность. Подрядчикам дается до 30 минут на запрос, чтобы определить, чей ответ лучше — у Gemini или у Claude.
Недавно подрядчики начали замечать упоминания о Claude от Anthropic на внутренней платформе Google, которую они используют для сравнения Gemini с другими неназванными моделями AI. По крайней мере, в одном из представленных подрядчикам Gemini ответов явно указано: «Я — Claude, созданный Anthropic».
Один внутренний чат показал, что подрядчики заметили, что ответы Claude больше акцентируют внимание на безопасности, чем Gemini. «Настройки безопасности Claude — самые строгие» среди моделей AI, написал один из подрядчиков. В некоторых случаях Claude не отвечал на запросы, которые он считал небезопасными, например, на ролевую игру с другим AI-ассистентом. В другом случае Claude избегал ответа на запрос, в то время как ответ Gemini был помечен как «огромное нарушение безопасности» за включение «наготы и связанных элементов».
Коммерческие условия обслуживания Anthropic запрещают клиентам доступ к Claude для создания конкурирующего продукта или услуги или «обучения конкурирующих моделей AI без одобрения Anthropic. Google является крупным инвестором в Anthropic. Шира МакНамара, представитель Google DeepMind, который управляет Gemini, не сказала, получил ли Google одобрение Anthropic на доступ к Claude, но сказала, что DeepMind действительно сравнивает результаты моделей для оценок, но не обучает Gemini на моделях Anthropic.
«Конечно, в соответствии со стандартной практикой в индустрии, в некоторых случаях мы сравниваем результаты моделей как часть нашего процесса оценки», — сказала МакНамара. «Тем не менее, любые предположения о том, что мы использовали модели Anthropic для обучения Gemini, неверны».
На прошлой неделе TechCrunch эксклюзивно сообщил, что подрядчики Google, работающие над продуктами AI компании, теперь вынуждены оценивать ответы Gemini в областях, выходящих за рамки их компетенции. Внутренняя переписка выразила обеспокоенность подрядчиков тем, что Gemini может генерировать неточную информацию по очень чувствительным темам, таким как здравоохранение.
Источник
Источник: habr.com