Компания Anthropic нашла простой способ улучшить способность своего помощника на основе искусственного интеллекта выполнять сложные многоэтапные задачи: позволить ему делать заметки по ходу работы. Компания утверждает, что добавление «блокнота», где Клод может записывать свои мысли, в сочетании с примерами подсказок значительно улучшает его способности решать задачи.
Система работает через команду «think», которая дает Клоду пространство для записи своих рассуждений, прежде чем двигаться дальше. Под капотом это просто команда JSON, которая отслеживает эти мысли:
{ «name»: «think», «description»: «Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.», «input_schema»: { «type»: «object», «properties»: { «thought»: { «type»: «string», «description»: «A thought to think about.» } }, }, «required»: [«thought»] } }
Это отличается от недавно добавленной функции «расширенное мышление» Клода. В то время как расширенное мышление помогает Клоду рассуждать перед тем, как сгенерировать ответ, новый «инструмент мышления» работает во время самого процесса ответа, особенно когда Клоду нужно обработать новую информацию из других инструментов.
При тестировании сценариев обслуживания клиентов авиакомпаний в рамках Tau Bench Клод показал результаты на 54% лучше базового уровня с оптимизированной подсказкой. По данным Anthropic, эти улучшения в многошаговых задачах и лучшее соблюдение инструкций могут значительно улучшить агентские системы искусственного интеллекта, которые все еще испытывают трудности с надежностью. Тесты по программной инженерии показали более скромные результаты: на 1,6% улучшились баллы SWE-Bench.
Тесты показывают, что метод «Думай + Подсказывай» обеспечивает стабильно лучшие результаты по задачам авиакомпании по сравнению с базовой производительностью. В то время как другие методы испытывают трудности с увеличением сложности (k=1 до k=5), этот подход сохраняет свое преимущество
Ключ не только в блокноте как таковом — он показывает Клоду, как эффективно его использовать. Anthropic предоставляет примеры подсказок, которые демонстрируют, как перечислять правила, проверять факты и планировать следующие шаги:
## Using the think tool Before taking any action or responding to the user after receiving tool results, use the think tool as a scratchpad to: — List the specific rules that apply to the current request — Check if all required information is collected — Verify that the planned action complies with all policies — Iterate over tool results for correctness Here are some examples of what to iterate over inside the think tool: User wants to cancel flight ABC123 — Need to verify: user ID, reservation ID, reason — Check cancellation rules: * Is it within 24h of booking? * If not, check ticket class and insurance — Verify no segments flown or are in the past — Plan: collect missing info, verify rules, get confirmation User wants to book 3 tickets to NYC with 2 checked bags each — Need user ID to check: * Membership tier for baggage allowance * Which payments methods exist in profile — Baggage calculation: * Economy class × 3 passengers * If regular member: 1 free bag each → 3 extra bags = $150 * If silver member: 2 free bags each → 0 extra bags = $0 * If gold member: 3 free bags each → 0 extra bags = $0 — Payment rules to verify: * Max 1 travel certificate, 1 credit card, 3 gift cards * All payment methods must be in profile * Travel certificate remainder goes to waste — Plan: 1. get user ID 2. verify membership level for bag fees 3. check which payment methods in profile and if their combination is allowed 4. calculate total: ticket price + any bag fees 5. get explicit confirmation for booking
По словам Anthropic, команда «think» наиболее полезна для анализа выходных данных инструмента, соблюдения сложных правил и принятия пошаговых решений, где ошибки могут быть дорогостоящими. Примеры, специфичные для домена, помогают достичь наилучших результатов. Инструмент «Think» следует добавлять только тогда, когда более простые задачи — например, вызовы отдельных инструментов или подсказки с небольшим количеством ограничений — сами по себе недостаточно надежны.
Инструмент легко интегрируется с существующими системами Claude и влияет на производительность только тогда, когда он фактически используется. Хотя большинство тестов использовало Claude 3.7 Sonnet, Anthropic сообщает, что улучшения работают так же хорошо с Claude 3.5 Sonnet.
Источник
Источник: habr.com