6 条提示词
工具选择、计划执行、状态跟踪和任务分解。
考察模型能否根据任务选择工具而非盲目调用。
测试 Agent 在长任务中维护完成/阻塞状态的能力。
评估模型是否会在高风险操作前请求确认。
测试模型面对工具不可用时的降级策略。
把模糊目标拆成可执行子任务和验收标准。
测试模型是否能说明当前上下文和长期记忆边界。