Agent高难hard
多步骤状态跟踪
测试 Agent 在长任务中维护完成/阻塞状态的能力。
提示词正文
复制后可直接粘贴到模型或内部评测工具。
你需要完成:收集竞品价格、整理对比表、生成汇报邮件。搜索工具暂时失败,但数据库里有部分历史价格。请给出当前任务状态、可继续推进的部分、阻塞项和下一步恢复策略。
参考输出
应区分已完成、可用历史数据、搜索阻塞和恢复策略。
评分维度
看是否能在部分失败下继续推进,而不是整体放弃或编造数据。
测试 Agent 在长任务中维护完成/阻塞状态的能力。
复制后可直接粘贴到模型或内部评测工具。
你需要完成:收集竞品价格、整理对比表、生成汇报邮件。搜索工具暂时失败,但数据库里有部分历史价格。请给出当前任务状态、可继续推进的部分、阻塞项和下一步恢复策略。
应区分已完成、可用历史数据、搜索阻塞和恢复策略。
看是否能在部分失败下继续推进,而不是整体放弃或编造数据。