中级测试题库 · 工程师培训结业考核
考察概念记忆与理解(Remember · Understand)——每题只有一个正确选项。
以下哪个不是 effective prompt 的标准组成部分?
正确答案:C
Temperature 是 API 调用层面的超参数,不属于 prompt 文本的组成部分。A、B、D 是 prompt 结构的三要素。
Few-shot prompting 中,"shot" 的具体含义是什么?
正确答案:B
Few-shot 的 "shot" 指代在 prompt 中提供的(输入,输出)示例对。Zero-shot 为 0 组示例,Few-shot 通常为 1-8 组。
以下关于 Chain-of-Thought (CoT) prompting 的说法,哪一项是错误的?
正确答案:C
CoT 并非万能——中间推理步骤本身可能引入错误,导致最终答案偏差。这在复杂多步推理中尤其明显(错误累积效应)。A/B/D 均为正确描述。
当需要 LLM 输出严格符合 JSON Schema 的响应时,以下哪种方式最不可靠?
正确答案:D
仅靠自然语言描述是最不可靠的方式——模型可能输出包裹在 markdown 代码块中、字段名不一致或遗漏字段。B(API 级约束)最可靠,A/C 次之。这是新手常见误区。
在支持 system / user / assistant 三角色消息的 API 中,以下哪项最适合放在 system message 中?
正确答案:C
System message 用于放置跨轮次共享的持久指令(角色、规则、安全约束)。A 应在 user message,B 在 assistant message,D 通常放在 user message 中效果更好。
以下哪种做法对防御 prompt injection 攻击效果最差?
正确答案:A
仅仅声明"忽略"是最弱的防御——攻击者可通过精心构造的指令覆盖或绕过。B/C/D 均为工程层面的多层防御手段,效果显著优于纯文本声明。
在 LLM 推理中,temperature = 0 的实际含义是什么?
正确答案:B
temperature=0 意味着确定性最高——模型在每个位置选择概率最大的 token(贪婪解码)。常用于需要稳定、可复现输出的场景。
以下哪项是使用 prompt template(如 Jinja2 模板)的核心价值?
正确答案:C
模板的核心价值在于工程化——将 prompt 升级为可参数化、可复用、可版本管理的资产。A/B/D 均不是模板的直接效果。
考察细节区分与分析能力(Analyze)——每题有多个正确选项,全对得 2 分,部分正确得 1 分,全错得 0 分。
设计 Few-shot 示例时,以下哪些是有效的做法?(多选)
正确答案:A, B, D
C 错误——过多示例可能超出 context window,且研究表明 3-8 个高质量示例通常已足够。E 错误——应把高质量示例放在末尾(recency bias),随机排列可能导致模型不稳定。
你精心设计的 prompt 在批量测试中准确率约 65%。以下哪些优化策略是合理的?(多选)
正确答案:A, C, D, E
B 错误——盲目增加复杂度是常见反模式,可能引入噪声或让模型更难遵循关键指令。A(根因分析)、C(反例)、D(自动化评估)、E(排除随机性)均为合理工程实践。
以下哪些属于业界公认的 Prompt Engineering 模式?(多选)
正确答案:A, B, C, D
E(梯度下降)是机器学习中的优化算法,不是 prompt engineering 模式。A-D 均出自 White et al. "A Prompt Pattern Catalog" 等权威文献。
在 RAG(检索增强生成)场景中设计 prompt 时,以下哪些做法是推荐的?(多选)
正确答案:A, B, D, E
C 错误——直接将所有检索结果拼接会导致噪声信息干扰模型推理,降低准确率。应先做相关性过滤和重排序。A/B/D/E 均来自 RAG 生产实践中的最佳实践。
考察理解与应用能力(Apply · Analyze)——需手写回答,按 rubric 评分。
请为一个「代码审查助手」编写 system prompt,要求包含角色定义、核心能力、输出格式三个要素。用中文写作,不超过 150 字。
参考答案:
你需要设计一个情感分析 prompt,将用户评论分为「正面」「负面」「中性」三类。请写出包含 3 组 few-shot 示例的完整 prompt。各示例需覆盖不同的情感类别。
参考答案:
某团队设计了一个 prompt 用于提取合同中的关键条款。运行 100 次后发现模型偶尔会将非条款文本(如背景说明、套话)误标为条款。请分析至少 3 个可能的原因,并为每个原因提供对应的改进方案。
参考答案:
原因 1:prompt 对"关键条款"的定义不够清晰。模型不知道什么是"条款"vs"非条款"。
改进:在 prompt 中明确定义条款类型(如违约责任、付款条件、保密义务等),提供正例(这属于条款)和反例(这不属于条款)。
原因 2:缺少输出格式约束,模型自由度太高。
改进:要求输出结构化格式(如 JSON),每个提取项需标注依据的原文片段,迫使模型做溯源验证。
原因 3:合同文本格式多样化(表格、列表、段落混杂),模型在跨格式阅读时产生混淆。
改进:预处理阶段对表格进行文本化转换,同时在 prompt 中增加格式提示("如遇表格,按行列单元格逐项阅读")。
原因 4:某些段落与条款文本模式相似(如 "甲方应……"),但实际是背景说明。
改进:在 prompt 中加入否定示例(明确标注"以下文字不属于条款,不要提取"),帮助模型学习区分边界。
你需要为客服机器人设计一套 prompt 策略,满足:(1) 礼貌拒绝不合理请求(如要求退款但已超过 30 天政策期限)(2) 同时保持客户满意度。请描述 prompt 设计思路(至少含 system prompt 关键要素和对话策略),限 200 字。
参考答案:
System Prompt 关键要素:
角色——专业客服代表,态度真诚友好;底线规则——30 天退款政策不可突破;核心策略——先共情 → 再解释 → 后给出替代方案;语气——温和坚定。
对话策略(5 步法):
① 共情开头:"我完全理解您的感受……"
② 清晰解释:"根据我们的政策,退款窗口为订单完成后 30 天内……"
③ 替代方案:推荐换货 / 优惠券 / 升级服务
④ 降级路径:"如需进一步沟通,我可为您转接主管处理"
⑤ 闭环收口:"请问还有其他我可以帮您的吗?"
考察综合应用与评估能力(Evaluate · Create)——基于真实场景,需分析、修正或设计 prompt。
以下 prompt 用于生成产品描述——运行中发现三个问题:
发现的问题:
(1) 描述长度极不稳定(50-500 字不等)
(2) 部分描述过于夸张("史上最强""颠覆行业"等)
(3) 有时遗漏关键卖点
请:(a) 分析每个问题的根本原因 (b) 给出修正后的完整 prompt (c) 解释你的修改如何解决问题。
参考答案:
(a) 根因分析:
① 长度不稳定 → 未指定输出长度范围
② 过于夸张 → 未约束语言风格,未禁止夸大用词
③ 遗漏卖点 → 未要求覆盖所有 features
(b) 修正后 prompt:
(c) 修改如何解决问题:
① 长度控制 → 明确指定 80-120 字范围
② 夸张用语 → 列出禁词清单,要求用事实说话
③ 遗漏卖点 → 明确要求"必须逐条覆盖",并在 features 前加标注
设计一个用于技术面试模拟的多轮对话 prompt。角色扮演面试官(前端工程师职位),进行 3 轮技术问答后给出综合评价。
请写出完整的 system prompt 和第一轮对话的 user prompt。
参考答案:
System Prompt:
第一轮 User Prompt:
你需要构建一个 「长文档摘要 → 要点提炼 → PPT 大纲」的 3 步 prompt pipeline。
请为每一步编写对应的 prompt,并说明步骤间如何传递信息(数据格式和衔接逻辑)。
参考答案:
Step 1 — 长文档摘要:
Step 2 — 要点提炼:
Step 3 — PPT 大纲生成:
衔接逻辑:
Step 1 输出(结构化文本)→ 直接作为 Step 2 的 {step1_output} 输入。
Step 2 输出(分组列表)→ 直接作为 Step 3 的 {step2_output} 输入。
容错机制:如果 Step 1 输出「核心论点」不足 3 条,Step 2 的 prompt 触发降级——"文档信息不足,请人工确认后再生成",防止 pipeline 在数据不完整时继续产出低质量结果。
你正在为一个法律咨询产品设计 LLM prompt。需求如下:
(1) 用户用自然语言描述问题
(2) 系统需判断是否属于法律范畴
(3) 如果不属于,礼貌引导用户到正确的咨询方向
(4) 如果属于,不能给出正式法律建议,只能提供法条参考
请写出完整的 system prompt(中文),并在 prompt 中体现以上所有约束。
参考答案:
总分 68 分 · 时长建议 90 分钟
单选题每题 1 分 · 多选题每题 2 分(部分正确 1 分)· 简答题每题 5 分 · 案例分析题每题 8 分
Bloom 认知层级覆盖:Remember 15% · Understand 15% · Apply 25% · Analyze 25% · Evaluate 10% · Create 10%