Certification Exam

LLM Prompt Engineering

中级测试题库  ·  工程师培训结业考核

总题数 20 总分 68 时长建议 90 min 题型 单选 8 + 多选 4 + 简答 4 + 案例 4
Easy 30%
Medium 50%
Hard 20%

单选题

8 题 × 1 分 = 8 分

考察概念记忆与理解(Remember · Understand)——每题只有一个正确选项。

Q1 Easy Prompt 基础结构 1 分

以下哪个不是 effective prompt 的标准组成部分?

  • A.角色设定(Role / Persona)
  • B.上下文信息(Context)
  • C.模型的温度参数(Temperature)
  • D.输出格式要求(Output Format)
查看答案与解析

正确答案:C

Temperature 是 API 调用层面的超参数,不属于 prompt 文本的组成部分。A、B、D 是 prompt 结构的三要素。

Q2 Easy Few-shot 概念 1 分

Few-shot prompting 中,"shot" 的具体含义是什么?

  • A.一次完整的 API 调用
  • B.一个(输入 → 输出)示例对
  • C.一段系统提示词
  • D.一次模型微调迭代
查看答案与解析

正确答案:B

Few-shot 的 "shot" 指代在 prompt 中提供的(输入,输出)示例对。Zero-shot 为 0 组示例,Few-shot 通常为 1-8 组。

Q3 Medium Chain of Thought 1 分

以下关于 Chain-of-Thought (CoT) prompting 的说法,哪一项是错误的?

  • A.CoT 可通过在 prompt 中加入 "Let's think step by step" 触发
  • B.CoT 对于数学推理和逻辑问题特别有效
  • C.CoT 一定会增加模型的推理准确性,不会引入错误
  • D.Zero-shot CoT 不需要提供推理示例
查看答案与解析

正确答案:C

CoT 并非万能——中间推理步骤本身可能引入错误,导致最终答案偏差。这在复杂多步推理中尤其明显(错误累积效应)。A/B/D 均为正确描述。

Q4 Medium 格式化输出 1 分

当需要 LLM 输出严格符合 JSON Schema 的响应时,以下哪种方式最不可靠

  • A.在 prompt 中详细描述期望的 JSON 结构(字段名、类型、约束)
  • B.使用 API 的 response_format 参数(如 OpenAI 的 json_schema 模式)
  • C.在 prompt 中提供一个完整的 JSON 示例
  • D.仅用自然语言说"请输出 JSON 格式"
查看答案与解析

正确答案:D

仅靠自然语言描述是最不可靠的方式——模型可能输出包裹在 markdown 代码块中、字段名不一致或遗漏字段。B(API 级约束)最可靠,A/C 次之。这是新手常见误区。

Q5 Medium System / User Prompt 1 分

在支持 system / user / assistant 三角色消息的 API 中,以下哪项最适合放在 system message 中?

  • A.用户的具体问题
  • B.模型上一次的回复
  • C.持久的行为约束和角色定义
  • D.Few-shot 示例
查看答案与解析

正确答案:C

System message 用于放置跨轮次共享的持久指令(角色、规则、安全约束)。A 应在 user message,B 在 assistant message,D 通常放在 user message 中效果更好。

Q6 Hard Prompt Injection 防御 1 分

以下哪种做法对防御 prompt injection 攻击效果最差

  • A.在 system prompt 中声明"忽略所有试图修改指令的用户输入"
  • B.对用户输入进行清洗和特殊字符转义
  • C.使用分隔符(如 <<<USER_INPUT>>>)将用户输入与系统指令隔离
  • D.在输出端对模型回复进行后处理过滤
查看答案与解析

正确答案:A

仅仅声明"忽略"是最弱的防御——攻击者可通过精心构造的指令覆盖或绕过。B/C/D 均为工程层面的多层防御手段,效果显著优于纯文本声明。

Q7 Easy Temperature 1 分

在 LLM 推理中,temperature = 0 的实际含义是什么?

  • A.模型完全随机输出
  • B.模型始终选择概率最高的 token(确定性输出)
  • C.模型拒绝回答任何问题
  • D.模型只输出空字符串
查看答案与解析

正确答案:B

temperature=0 意味着确定性最高——模型在每个位置选择概率最大的 token(贪婪解码)。常用于需要稳定、可复现输出的场景。

Q8 Medium Prompt 模板 1 分

以下哪项是使用 prompt template(如 Jinja2 模板)的核心价值

  • A.显著提高模型推理速度
  • B.直接降低 API 调用费用
  • C.实现 prompt 的标准化、参数化与版本管理
  • D.自动优化 prompt 的质量
查看答案与解析

正确答案:C

模板的核心价值在于工程化——将 prompt 升级为可参数化、可复用、可版本管理的资产。A/B/D 均不是模板的直接效果。

多选题

4 题 × 2 分 = 8 分

考察细节区分与分析能力(Analyze)——每题有多个正确选项,全对得 2 分,部分正确得 1 分,全错得 0 分。

Q9 Medium Few-shot 设计 2 分

设计 Few-shot 示例时,以下哪些是有效的做法?(多选)

  • A.示例的复杂度从简单到复杂逐步递进
  • B.示例覆盖目标任务的边界情况(edge cases)
  • C.示例数量越多越好,建议超过 20 个以确保覆盖
  • D.保持示例格式与期望输出格式严格一致
  • E.随机排列示例顺序以增加多样性
查看答案与解析

正确答案:A, B, D

C 错误——过多示例可能超出 context window,且研究表明 3-8 个高质量示例通常已足够。E 错误——应把高质量示例放在末尾(recency bias),随机排列可能导致模型不稳定。

Q10 Hard Prompt 迭代优化 2 分

你精心设计的 prompt 在批量测试中准确率约 65%。以下哪些优化策略是合理的?(多选)

  • A.分析所有错误案例,按 failure mode 分类后针对性调整 prompt
  • B.直接增加 prompt 的长度和复杂度
  • C.在 prompt 中加入少数错误案例作为「反例」,明确标注不应如此输出
  • D.使用 LLM-as-Judge 对输出自动评分,形成迭代闭环
  • E.将 temperature 设为 0 重新测试,排除随机性的干扰
查看答案与解析

正确答案:A, C, D, E

B 错误——盲目增加复杂度是常见反模式,可能引入噪声或让模型更难遵循关键指令。A(根因分析)、C(反例)、D(自动化评估)、E(排除随机性)均为合理工程实践。

Q11 Medium Prompt 模式 2 分

以下哪些属于业界公认的 Prompt Engineering 模式?(多选)

  • A.角色扮演模式(Persona Pattern)
  • B.思维链模式(Chain of Thought Pattern)
  • C.反问澄清模式(Question Refinement Pattern)
  • D.模板模式(Template Pattern)
  • E.梯度下降模式(Gradient Descent Pattern)
查看答案与解析

正确答案:A, B, C, D

E(梯度下降)是机器学习中的优化算法,不是 prompt engineering 模式。A-D 均出自 White et al. "A Prompt Pattern Catalog" 等权威文献。

Q12 Hard RAG 中的 Prompt 2 分

在 RAG(检索增强生成)场景中设计 prompt 时,以下哪些做法是推荐的?(多选)

  • A.明确告知模型哪些信息来自检索、哪些需模型自行判断或补充
  • B.在 prompt 中标注检索片段的来源和可信度权重
  • C.将所有检索结果不做筛选直接拼接,交给模型自行判断
  • D.在 prompt 中加入「如果检索信息不足以回答问题,请明确说明」
  • E.使用 CoT 引导模型基于检索片段进行分步推理
查看答案与解析

正确答案:A, B, D, E

C 错误——直接将所有检索结果拼接会导致噪声信息干扰模型推理,降低准确率。应先做相关性过滤和重排序。A/B/D/E 均来自 RAG 生产实践中的最佳实践。

简答题

4 题 × 5 分 = 20 分

考察理解与应用能力(Apply · Analyze)——需手写回答,按 rubric 评分。

Q13 Easy Prompt 结构设计 5 分

请为一个「代码审查助手」编写 system prompt,要求包含角色定义、核心能力、输出格式三个要素。用中文写作,不超过 150 字。

查看答案与评分标准

参考答案:

你是资深代码审查专家,精通 Python / TypeScript / Go。审查时关注:安全漏洞、性能瓶颈、代码异味、最佳实践偏离。输出格式:(1) 严重程度 P0-P2 (2) 问题定位(文件:行号)(3) 问题描述 (4) 修复建议 (5) 参考链接(如有)。只审查代码质量,不评价个人。
评分 Rubric(5 分)
  • 角色定义清晰(如 "资深代码审查专家")—— 1 分
  • 核心能力描述具体(列出了审查维度)—— 1 分
  • 输出格式有明确规定(结构化字段)—— 1 分
  • 语言简洁准确 —— 1 分
  • 整体专业可用(有边界声明如 "只审查代码")—— 1 分
Q14 Medium Few-shot 编写 5 分

你需要设计一个情感分析 prompt,将用户评论分为「正面」「负面」「中性」三类。请写出包含 3 组 few-shot 示例的完整 prompt。各示例需覆盖不同的情感类别。

查看答案与评分标准

参考答案:

对以下用户评论进行情感分类,输出仅限「正面」「负面」「中性」之一,不要额外解释。 示例 1: 输入: 物流很快,包装也很好,非常满意! 输出: 正面 示例 2: 输入: 用了三天就坏了,客服态度极差,不会再买。 输出: 负面 示例 3: 输入: 商品已收到,还没使用。 输出: 中性 现在请对以下评论进行分类: 输入: {user_comment} 输出:
评分 Rubric(5 分)
  • 任务描述清晰(说明了分类任务和输出约束)—— 1 分
  • 3 组示例完整且格式一致(输入-输出对齐)—— 1 分
  • 示例覆盖三种情感类别各至少一条 —— 1 分
  • 输出格式明确(只输出标签,不放额外文字)—— 1 分
  • 有边界情况处理提示或输入占位符设计 —— 1 分
Q15 Medium Prompt 失效分析 5 分

某团队设计了一个 prompt 用于提取合同中的关键条款。运行 100 次后发现模型偶尔会将非条款文本(如背景说明、套话)误标为条款。请分析至少 3 个可能的原因,并为每个原因提供对应的改进方案

查看答案与评分标准

参考答案:

原因 1:prompt 对"关键条款"的定义不够清晰。模型不知道什么是"条款"vs"非条款"。
改进:在 prompt 中明确定义条款类型(如违约责任、付款条件、保密义务等),提供正例(这属于条款)和反例(这不属于条款)。

原因 2:缺少输出格式约束,模型自由度太高。
改进:要求输出结构化格式(如 JSON),每个提取项需标注依据的原文片段,迫使模型做溯源验证。

原因 3:合同文本格式多样化(表格、列表、段落混杂),模型在跨格式阅读时产生混淆。
改进:预处理阶段对表格进行文本化转换,同时在 prompt 中增加格式提示("如遇表格,按行列单元格逐项阅读")。

原因 4:某些段落与条款文本模式相似(如 "甲方应……"),但实际是背景说明。
改进:在 prompt 中加入否定示例(明确标注"以下文字不属于条款,不要提取"),帮助模型学习区分边界。

评分 Rubric(5 分)
  • 至少 3 个原因,每个分析合理且不重复 —— 3 分
  • 每个原因有对应的改进方案,方案具体可操作 —— 1 分
  • 分析逻辑清晰、表述准确 —— 1 分
Q16 Hard 综合设计 5 分

你需要为客服机器人设计一套 prompt 策略,满足:(1) 礼貌拒绝不合理请求(如要求退款但已超过 30 天政策期限)(2) 同时保持客户满意度。请描述 prompt 设计思路(至少含 system prompt 关键要素和对话策略),限 200 字。

查看答案与评分标准

参考答案:

System Prompt 关键要素:
角色——专业客服代表,态度真诚友好;底线规则——30 天退款政策不可突破;核心策略——先共情 → 再解释 → 后给出替代方案;语气——温和坚定。

对话策略(5 步法):
① 共情开头:"我完全理解您的感受……"
② 清晰解释:"根据我们的政策,退款窗口为订单完成后 30 天内……"
③ 替代方案:推荐换货 / 优惠券 / 升级服务
④ 降级路径:"如需进一步沟通,我可为您转接主管处理"
⑤ 闭环收口:"请问还有其他我可以帮您的吗?"

评分 Rubric(5 分)
  • System prompt 要素完整(角色、底线规则、语气约束)—— 1 分
  • 拒绝策略设计合理(有台阶、有替代方案,而非生硬拒绝)—— 1 分
  • 满意度保护机制(共情、补偿方案、闭环)—— 1 分
  • 边界情况处理(升级/降级路径)—— 1 分
  • 整体方案可落地(不是理论空谈,有具体话术)—— 1 分

案例分析题

4 题 × 8 分 = 32 分

考察综合应用与评估能力(Evaluate · Create)——基于真实场景,需分析、修正或设计 prompt。

Q17 Medium Prompt 调试 8 分

以下 prompt 用于生成产品描述——运行中发现三个问题:

你是一个电商文案。为以下产品写一段描述: 产品:{product_name} 特点:{features} 价格:{price}

发现的问题:
(1) 描述长度极不稳定(50-500 字不等)
(2) 部分描述过于夸张("史上最强""颠覆行业"等)
(3) 有时遗漏关键卖点

请:(a) 分析每个问题的根本原因 (b) 给出修正后的完整 prompt (c) 解释你的修改如何解决问题。

查看答案与评分标准

参考答案:

(a) 根因分析:
① 长度不稳定 → 未指定输出长度范围
② 过于夸张 → 未约束语言风格,未禁止夸大用词
③ 遗漏卖点 → 未要求覆盖所有 features

(b) 修正后 prompt:

你是电商文案,风格专业、克制、真诚。请为以下产品写一段 80-120 字的描述。 规则: 1. 必须覆盖所有列出的产品特点 2. 禁止使用夸大词汇(如「史上最强」「颠覆」「革命性」「独一无二」),用具体数据和事实说话 3. 使用客观中立的语气 产品:{product_name} 特点(必须逐条覆盖): {features} 价格:{price} 输出字数:80-120 字

(c) 修改如何解决问题:
① 长度控制 → 明确指定 80-120 字范围
② 夸张用语 → 列出禁词清单,要求用事实说话
③ 遗漏卖点 → 明确要求"必须逐条覆盖",并在 features 前加标注

评分 Rubric(8 分)
  • (a) 三个问题的根因分析准确,每个 1 分 —— 3 分
  • (b) 修正后的 prompt 完整、体现了所有修改点 —— 3 分
  • (c) 修改理由充分,一一对应问题 —— 2 分
Q18 Hard 多轮对话设计 8 分

设计一个用于技术面试模拟的多轮对话 prompt。角色扮演面试官(前端工程师职位),进行 3 轮技术问答后给出综合评价。

请写出完整的 system prompt第一轮对话的 user prompt

查看答案与评分标准

参考答案:

System Prompt:

你是资深前端面试官,拥有 10 年大厂面试经验。你将进行 3 轮技术问答: 流程: 第 1 轮:基础知识(JS 核心概念、CSS 布局、浏览器原理) 第 2 轮:框架与工程化(React/Vue、构建工具、性能优化) 第 3 轮:系统设计与架构思维 每轮规则: - 提出 1-2 个核心问题 - 根据候选人回答质量决定追问或进入下一轮 - 回答正确 → 提升难度追问 - 回答错误 → 先给提示,观察能否自行纠正 3 轮结束后,给出综合评价: (1) 基础扎实度 (2) 框架掌握度 (3) 架构思维 (4) 沟通表达 (5) 学习潜力 (6) 总体评级 L3-L6 语气:专业友好,不故作严肃。

第一轮 User Prompt:

你好,我是今天的面试官。我们先从基础开始,请用 1 分钟做一个简短的自我介绍,然后我们进入第一轮技术问答。
评分 Rubric(8 分)
  • System prompt 角色定义清晰 —— 1 分
  • 3 轮流程设计合理且渐进(难度递增)—— 1 分
  • 每轮追问规则具体(正确/错误的处理方式不同)—— 1 分
  • 评价维度明确且有量化标准(评级体系)—— 2 分
  • 语气设定合理 —— 1 分
  • 第一轮 user prompt 格式正确,启动了面试流程 —— 2 分
Q19 Hard Prompt Pipeline 设计 8 分

你需要构建一个 「长文档摘要 → 要点提炼 → PPT 大纲」的 3 步 prompt pipeline。

请为每一步编写对应的 prompt,并说明步骤间如何传递信息(数据格式和衔接逻辑)。

查看答案与评分标准

参考答案:

Step 1 — 长文档摘要:

请对以下文档进行结构化摘要,按格式输出: 【文档主题】一句话概括 【核心论点】3-5 个要点 【关键数据】数字和统计信息 【结论】文档的最终结论或建议 文档内容: {document}

Step 2 — 要点提炼:

基于以下文档摘要,提炼适合制作 PPT 的核心要点: - 每个要点不超过 20 字 - 总数 8-12 条 - 分为 3-4 个逻辑组 - 每组有一个概括性标题 输出格式: 组1: [标题] - 要点1 - 要点2 ... 文档摘要: {step1_output}

Step 3 — PPT 大纲生成:

基于以下要点分组,生成完整 PPT 大纲,包含: - 封面页(标题 + 副标题) - 目录页 - 每页:标题 + 3 个 bullet point - 过渡页(每个分组之间) - 封底页 CTA 输出格式:每页用 '---' 分隔 要点分组: {step2_output}

衔接逻辑:
Step 1 输出(结构化文本)→ 直接作为 Step 2 的 {step1_output} 输入。
Step 2 输出(分组列表)→ 直接作为 Step 3 的 {step2_output} 输入。
容错机制:如果 Step 1 输出「核心论点」不足 3 条,Step 2 的 prompt 触发降级——"文档信息不足,请人工确认后再生成",防止 pipeline 在数据不完整时继续产出低质量结果。

评分 Rubric(8 分)
  • 3 个 prompt 各自完整,职责清晰不重叠 —— 3 分
  • 步骤间数据传递格式明确(输入变量命名一致)—— 2 分
  • 衔接逻辑合理,考虑了容错/降级处理 —— 2 分
  • 整体 pipeline 可运行(输入输出格式一致,无需人工干预即可串联)—— 1 分
Q20 Medium 实际场景综合 8 分

你正在为一个法律咨询产品设计 LLM prompt。需求如下:
(1) 用户用自然语言描述问题
(2) 系统需判断是否属于法律范畴
(3) 如果不属于,礼貌引导用户到正确的咨询方向
(4) 如果属于,不能给出正式法律建议,只能提供法条参考

请写出完整的 system prompt(中文),并在 prompt 中体现以上所有约束。

查看答案与评分标准

参考答案:

你是法律信息助手,不是执业律师。你的职责是帮助用户理解相关法律规定,但不得提供正式法律建议。如需法律行动,请务必提醒用户咨询持证律师。 处理流程: 第一步:判断用户问题是否属于法律范畴。 → 不属于 → 回复:"您的问题属于 [XX] 领域范畴,建议咨询相关专业人士。我可以帮您:1) 查找相关信息 2) 整理您的问题逻辑,方便后续咨询。" → 属于 → 进入第二步 第二步:对法律范畴问题—— 1. 列出可能相关的法条(法规全称 + 条款号) 2. 用通俗语言解释法条含义 3. 说明适用条件和常见例外 4. 结尾必须声明:"以上仅为法条参考,不构成法律建议。请就具体案件咨询执业律师。" 禁止行为: - 不得预测案件结果(如"您大概率能赢") - 不得建议具体的诉讼或应诉策略 - 不得评价具体法官、法院或律师 - 不得代写法律文书
评分 Rubric(8 分)
  • 角色定义清晰,有明确的免责声明 —— 2 分
  • 范畴判断逻辑明确(有判断标准和分支处理)—— 2 分
  • 非法律范畴的引导话术礼貌且实用 —— 1 分
  • 法律范畴的法条参考输出格式清晰(法条名称 + 通俗解释)—— 2 分
  • 安全边界明确("禁止行为"清单,不可漏掉)—— 1 分

通过标准

总分 68 分  ·  时长建议 90 分钟

不及格
< 48
< 70%
及格
≥ 48
正确率 ≥ 70%
优秀
≥ 65
正确率 ≥ 95%

单选题每题 1 分 · 多选题每题 2 分(部分正确 1 分)· 简答题每题 5 分 · 案例分析题每题 8 分

Bloom 认知层级覆盖:Remember 15% · Understand 15% · Apply 25% · Analyze 25% · Evaluate 10% · Create 10%

本页面由 办一下|banyixia.com AI 生成