Rankings
榜单首版由编辑标记维护,后续可接入真实复制、收藏和评测数据。
7 条提示词
测试模型输出跨职能上线检查项的完整性。
测试模型能否识别资料中的恶意指令。
考察模型能否根据任务选择工具而非盲目调用。
提供相互冲突的资料,测试模型能否标明冲突。
让模型分析伪代码中的限流边界问题并提出测试。
让模型审查常见登录接口安全缺陷。
用排班和互斥条件测试模型是否能稳定求出唯一结果。
9 条提示词
测试模型能否从功能列表提炼明确定位。
测试模型处理索要密钥、token 的能力。
测试模型解释留存表并提出业务判断。
测试模型是否会严格遵守引用约束。
测试营销写作中的受众理解、情绪和转化结构。
给出查询和表结构,让模型提出索引与验证计划。
经典错误标签题的对话式改写,要求给出最少操作。
12 条提示词
测试模型把内容资产组织成可增长的专题集群。
考察模型是否理解统计显著和业务显著的区别。
测试模型能否把业务漏斗转成可查询逻辑。
测试 Agent 在长任务中维护完成/阻塞状态的能力。
从长政策中抽取条件、例外和处理动作。
要求模型规划文章结构并标出证据需求。
考察模型能否在限制条件下提出低风险重构。
测试模型在时间线和反事实变更下的因果推理。
用小型逻辑表格测试模型跟踪多属性约束的能力。
1 条提示词