9 条提示词
优先收录能明显区分模型能力边界的高信噪比任务。
考察模型是否理解统计显著和业务显著的区别。
测试 Agent 在长任务中维护完成/阻塞状态的能力。
从长政策中抽取条件、例外和处理动作。
把技术材料压缩成面向决策者的结论摘要。
考察模型能否在限制条件下提出低风险重构。
用排班和互斥条件测试模型是否能稳定求出唯一结果。
测试模型在时间线和反事实变更下的因果推理。
经典错误标签题的对话式改写,要求给出最少操作。
用小型逻辑表格测试模型跟踪多属性约束的能力。