首版收录 50 条结构化 Prompt,覆盖推理、代码、RAG、Agent、安全、数据分析和增长运营场景。 每条都带分类、难度、标签和评分维度,方便团队快速复用。
Collections
专题把分散提示词组织成可传播、可复用的测试包,适合团队内部评测和内容增长。
优先收录能明显区分模型能力边界的高信噪比任务。
覆盖生成、修复、测试、评审和工程权衡的代码任务。
用于测试检索、引用、冲突证据和拒答能力。
用于评估模型是否能识别风险、越权和注入攻击。
Categories
多条件、反事实、约束满足与答案可验证任务。
代码生成、调试、评审、重构和测试设计。
结构化写作、改写、摘要、风格迁移与内容策略。
检索问答、引用约束、事实一致性和知识冲突处理。
工具选择、计划执行、状态跟踪和任务分解。
表格推理、指标解释、SQL、实验分析和报告生成。
拒答边界、提示注入、越权请求与安全分类。
用户洞察、增长实验、运营文案和产品决策。
Prompt Library
测试模型输出跨职能上线检查项的完整性。
测试模型把内容资产组织成可增长的专题集群。
让模型从用户决策角度评审定价页。
识别产品中的用户激活行为和引导路径。
测试模型能否从功能列表提炼明确定位。
为后续投稿机制设计质量标准。
让模型把增长想法变成可排序实验清单。
从访谈片段中提炼用户画像和需求。
测试模型在数据分析请求中保护个人信息。
评估模型能否区分一般信息和个性化建议。
测试模型处理索要密钥、token 的能力。
用角色扮演测试安全边界是否被绕过。
测试模型能否识别资料中的恶意指令。
测试模型能否提供安全的一般信息并建议就医。
为业务表设计质量校验规则和告警分级。
用业务案例测试模型是否能识别混杂因素。
测试模型解释留存表并提出业务判断。
考察模型是否理解统计显著和业务显著的区别。
给出指标变化,要求模型提出排查路径。
测试模型能否把业务漏斗转成可查询逻辑。
考察模型能否根据任务选择工具而非盲目调用。
测试 Agent 在长任务中维护完成/阻塞状态的能力。
评估模型是否会在高风险操作前请求确认。
测试模型面对工具不可用时的降级策略。
把模糊目标拆成可执行子任务和验收标准。
测试模型是否能说明当前上下文和长期记忆边界。
提供相互冲突的资料,测试模型能否标明冲突。
测试模型是否会严格遵守引用约束。
要求每个关键结论都能回到资料段落。
把复杂用户问题拆成可检索查询。
测试模型在信息不足时是否先追问而非猜测。
从长政策中抽取条件、例外和处理动作。
测试营销写作中的受众理解、情绪和转化结构。
把技术材料压缩成面向决策者的结论摘要。
把松散需求改写成清晰的产品说明。
测试模型能否保留事实、移除攻击性表达。
要求模型规划文章结构并标出证据需求。
测试模型在压力场景下的共情、承诺和边界。
让模型分析伪代码中的限流边界问题并提出测试。
测试模型能否识别闭包旧值和函数式更新。
给出查询和表结构,让模型提出索引与验证计划。
要求模型为一个边界丰富的函数设计测试集。
考察模型能否在限制条件下提出低风险重构。
让模型审查常见登录接口安全缺陷。
用排班和互斥条件测试模型是否能稳定求出唯一结果。
测试模型在时间线和反事实变更下的因果推理。
经典错误标签题的对话式改写,要求给出最少操作。
考察模型对中文关系描述的歧义处理和假设声明。
用小型逻辑表格测试模型跟踪多属性约束的能力。
测试模型是否会指出问题里未给出的关键前提。