9 条提示词

拉开模型差距

优先收录能明显区分模型能力边界的高信噪比任务。

数据分析高难

A/B 实验解释

考察模型是否理解统计显著和业务显著的区别。

A/B测试统计实验

增长分析评测

Agent高难

多步骤状态跟踪

测试 Agent 在长任务中维护完成/阻塞状态的能力。

状态管理多步骤任务分解

Agent 工作流评测

RAG/知识库高难

政策条款抽取

从长政策中抽取条件、例外和处理动作。

信息抽取政策条件

企业知识库评测

写作生成进阶

技术报告高管摘要

把技术材料压缩成面向决策者的结论摘要。

摘要高管沟通结构化

办公写作评测

代码能力高难

带约束的重构建议

考察模型能否在限制条件下提出低风险重构。

重构约束工程权衡

资深工程评测

逻辑推理进阶

仓库排班约束推理

用排班和互斥条件测试模型是否能稳定求出唯一结果。

约束满足唯一答案排班

模型推理评测

逻辑推理高难

合同截止日期反事实推理

测试模型在时间线和反事实变更下的因果推理。

反事实时间线因果

法律场景评测

逻辑推理入门

三箱标签全错问题

经典错误标签题的对话式改写，要求给出最少操作。

经典谜题最少操作可验证

基础推理冒烟测试

逻辑推理高难

咖啡订单逻辑表格

用小型逻辑表格测试模型跟踪多属性约束的能力。

逻辑表格多属性排除法

高级推理评测