7 条提示词

Agent 工作流

测试模型在多步骤任务中的计划、工具和状态管理能力。

产品运营入门

内容站上线清单

测试模型输出跨职能上线检查项的完整性。

上线清单运营

项目管理评测

Agent进阶

Agent 工具选择

考察模型能否根据任务选择工具而非盲目调用。

工具调用计划Agent

Agent 评测

Agent高难

多步骤状态跟踪

测试 Agent 在长任务中维护完成/阻塞状态的能力。

状态管理多步骤任务分解

Agent 工作流评测

Agent进阶

副作用操作确认

评估模型是否会在高风险操作前请求确认。

副作用确认安全

Agent 安全评测

Agent进阶

工具失败降级计划

测试模型面对工具不可用时的降级策略。

降级异常处理计划

Agent 稳定性评测

Agent入门

复杂任务分解

把模糊目标拆成可执行子任务和验收标准。

任务分解验收计划

Agent 计划评测

Agent进阶

记忆边界说明

测试模型是否能说明当前上下文和长期记忆边界。

记忆边界透明度

助手体验评测