大模型也有第一印象谬误

在与大模型（LLM）交互时，很多人发现：对话越长，模型的回答就越容易产生冗余、复读或忽略关键指令。这并非偶然，大模型的注意力分配与人类的记忆模式高度相似。

通过心理学中的首因效应（Primacy Effect）和近因效应（Recency Effect），我们可以找到优化输入顺序的科学依据。

研究表明，当输入文本过长时，模型的注意力会呈现出一条“U型曲线”。模型对开头和结尾的信息处理得最好，而中间的部分则极易被模型“遗忘”。这种现象在技术领域被称为“迷失在中间”（Lost in the Middle）。

Lost in the Middle: How Language Models Use Long Contexts
https://arxiv.org/abs/2307.03172

我们可以通过下表对比心理学概念在大模型上下文工程中的具体表现：

效应名称	心理学定义	在大模型中的表现	提示词工程应用
首因效应	第一印象重要，序列开头的信息最容易进入长期记忆。	提示词最前面的指令决定了模型扮演的角色和整体输出基调。	设定核心规则：将最关键的身份定义、输出格式要求放在最上方。
近因效应	最近的印象重要，序列末尾的信息由于距离当前时间点最近，最易被提取。	模型在生成回答时，离生成位置最近的指令具有最高的影响力。	明确当前任务：将具体的待处理问题或最后的约束条件放在输入框的最底端。

基于上述理论，优化上下文工程可以遵循“三段式”结构：

在输入的最上方直接给出核心指令。

将需要处理的长篇文档、背景资料或参考数据放在中间。

在输入的最后重复最重要的限制条件，并提出具体问题。

大模型的注意力不是均匀分布的资源。

标签：ai