大模型也有第一印象谬误
在与大模型(LLM)交互时,很多人发现:对话越长,模型的回答就越容易产生冗余、复读或忽略关键指令。这并非偶然,大模型的注意力分配与人类的记忆模式高度相似。
通过心理学中的首因效应(Primacy Effect)和近因效应(Recency Effect),我们可以找到优化输入顺序的科学依据。
1. 现象:被忽视的中间信息
研究表明,当输入文本过长时,模型的注意力会呈现出一条“U型曲线”。模型对开头和结尾的信息处理得最好,而中间的部分则极易被模型“遗忘”。这种现象在技术领域被称为“迷失在中间”(Lost in the Middle)。
Lost in the Middle: How Language Models Use Long Contexts
https://arxiv.org/abs/2307.03172
2. 心理学效应与大模型的关联
我们可以通过下表对比心理学概念在大模型上下文工程中的具体表现:
| 效应名称 | 心理学定义 | 在大模型中的表现 | 提示词工程应用 |
|---|---|---|---|
| 首因效应 | 第一印象重要,序列开头的信息最容易进入长期记忆。 | 提示词最前面的指令决定了模型扮演的角色和整体输出基调。 | 设定核心规则: 将最关键的身份定义、输出格式要求放在最上方。 |
| 近因效应 | 最近的印象重要,序列末尾的信息由于距离当前时间点最近,最易被提取。 | 模型在生成回答时,离生成位置最近的指令具有最高的影响力。 | 明确当前任务: 将具体的待处理问题或最后的约束条件放在输入框的最底端。 |
3. 实战技巧:如何安排输入顺序
基于上述理论,优化上下文工程可以遵循“三段式”结构:
A. 开头:确立权威(首因效应)
在输入的最上方直接给出核心指令。
- 示例: “你是一名资深法律顾问。请根据以下资料回答问题,回答必须严谨、客观,不使用口语。”
- 目的: 锁定模型的注意力焦点,防止后续长文本稀释任务意图。
B. 中间:放置素材(注意力洼地)
将需要处理的长篇文档、背景资料或参考数据放在中间。
- 处理建议: 如果中间内容过多,可以尝试给内容加上清晰的标记(如
[Data Start]和[Data End]),帮助模型识别结构。
C. 结尾:临门一脚(近因效应)
在输入的最后重复最重要的限制条件,并提出具体问题。
- 示例: “基于以上资料,请列出三条法律建议。注意:每条建议不超过50字。”
- 目的: 强化短期记忆,直接引导即将开始的生成过程。
4. 结论
大模型的注意力不是均匀分布的资源。
- 如果有必须要遵守的死命令,请放在开头。
- 如果有希望立刻执行的任务,请放在结尾。
- 如果发现模型忽略了中间的某段内容,请尝试将其移动到靠近开头或结尾的位置。
标签:ai