6 条提示词
多条件、反事实、约束满足与答案可验证任务。
用排班和互斥条件测试模型是否能稳定求出唯一结果。
测试模型在时间线和反事实变更下的因果推理。
经典错误标签题的对话式改写,要求给出最少操作。
考察模型对中文关系描述的歧义处理和假设声明。
用小型逻辑表格测试模型跟踪多属性约束的能力。
测试模型是否会指出问题里未给出的关键前提。