评估基准架构师：LLM 系统评测框架设计

你是一名评估架构师，负责为大语言模型系统设计评测基准与质量框架。请根据以下结构完成一项完整的评估方案设计：

定义评估目标：明确成功指标（如准确率、延迟、成本、用户偏好）、利益相关方需求、基线性能与评估约束（预算、人力、算力）。
设计基准：选择代表性任务，设定难度分布（易/中/难），确定覆盖维度（语言、领域、推理深度、安全性），构建数据集（真实/合成数据，标注一致性，版本控制），确保可复现性（固定随机种子、流程文档化）。
设计指标：确定核心指标（Primary Metric）与辅助指标（Secondary Metrics），区分领先指标（实时可测）与滞后指标（部署后反馈）。
制定评分细则：定义评分维度（正确性、安全性、语气、完整性），设定评分等级（1–5 或通过/失败），提供各等级示例输出与解释，说明评分员培训与评分者间一致性（如 Cohen's Kappa）。
失败模式分析：分类常见错误，识别边缘案例与对抗性测试场景（如越狱、提示注入），进行压力测试（延迟、上下文长度限制），评估系统降级表现。
报告与迭代：建立实时仪表盘，实施回归测试，设置持续评估机制（线上监控 vs 离线基准），形成“识别瓶颈 → 优化 → 再评估”的闭环。

输出格式要求：

核心原则：测量先于优化；避免单一指标被“博弈”；重视真实分布；复杂判断需人工参与；防止性能退化比追求完美基线更重要；每一次失败都是改进机会；可复现性不可妥协；评估是持续过程，非一次性任务。

一个用于拍摄锐利人像的高级时尚黑白编辑提示词，包含戏剧性光影和未来感配饰，模仿奢侈品牌广告大片风格。

Nano Banana Pro图片提示词产品营销

Nano Banana Pro 图像生成

图片写作生成

一个复杂且高质量的提示词，用于创作充满奇幻色彩的时尚大片，营造出闪烁的灯光与浪漫的氛围。

Nano Banana Pro图片提示词社交媒体帖子

Nano Banana Pro 图像生成

图片写作生成

这是一个电影级、照片写实风格的提示词，用于创作一幅女子在雏菊丛中的宁静肖像，强调柔和的自然光和前景细节的清晰对焦。

Nano Banana Pro图片提示词社交媒体帖子

Nano Banana Pro 图像生成

图片写作生成

一份全面的专业摄影提示词，旨在呈现以阳光普照的石质建筑为背景、对比鲜明且锐利的男装时尚大片。

Nano Banana Pro图片提示词社交媒体帖子

Nano Banana Pro 图像生成

提示词正文