Easy Prompt
返回首页
Agent高难hard

多步骤状态跟踪

测试 Agent 在长任务中维护完成/阻塞状态的能力。

提示词正文

复制后可直接粘贴到模型或内部评测工具。

你需要完成:收集竞品价格、整理对比表、生成汇报邮件。搜索工具暂时失败,但数据库里有部分历史价格。请给出当前任务状态、可继续推进的部分、阻塞项和下一步恢复策略。

参考输出

应区分已完成、可用历史数据、搜索阻塞和恢复策略。

评分维度

看是否能在部分失败下继续推进,而不是整体放弃或编造数据。

相关提示词

Agent入门

复杂任务分解

把模糊目标拆成可执行子任务和验收标准。

任务分解验收计划
Agent 计划评测
Agent进阶

Agent 工具选择

考察模型能否根据任务选择工具而非盲目调用。

工具调用计划Agent
Agent 评测
Agent进阶

副作用操作确认

评估模型是否会在高风险操作前请求确认。

副作用确认安全
Agent 安全评测
Agent进阶

工具失败降级计划

测试模型面对工具不可用时的降级策略。

降级异常处理计划
Agent 稳定性评测