7 条提示词
测试模型在多步骤任务中的计划、工具和状态管理能力。
测试模型输出跨职能上线检查项的完整性。
考察模型能否根据任务选择工具而非盲目调用。
测试 Agent 在长任务中维护完成/阻塞状态的能力。
评估模型是否会在高风险操作前请求确认。
测试模型面对工具不可用时的降级策略。
把模糊目标拆成可执行子任务和验收标准。
测试模型是否能说明当前上下文和长期记忆边界。