基于Transformer的大模型是如何运行的？Meta从全局和上下文学习揭秘

随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部工作原理变得越来越重要。更好地理解这些模型是如何做出决策的，这对改进模型和减轻其故障（如幻觉或推理错误）至关重要。

众所周知，最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习能力通常归功于 Transformer 架构，特别是自注意力块的使用，其能够仔细选择输入序列，进而推理出可信的下一个 token。此外，预测可能需要全局知识，如语法规则或一般事实，这些可能不会出现在上下文中，需要存储在模型中。

我们不禁会疑问，为什么基于 Transformer 的模型非常擅长使用它们的上下文来预测新的 token，这种能力是如何在训练中产生的？带着这些问题，来自 Meta AI 的研究者进行了深入的研究。他们通过研究合成设置下 Transformer 的学习机制，揭示了其全局和上下文学习的平衡，并将权重矩阵解释为联想记忆，为理解和优化 Transformer 提供了基础。

论文地址：https://arxiv.org/pdf/2306.00802.pdf

首先要了解的是在训练过程中 Transformer 是如何发现这些能力的。为此，该研究引入了一个合成数据集，该数据集由二元语言模型生成的序列组成。然后，模型需要依靠上下文学习来对特定的二元序列进行良好的预测，而全局二元可以根据当前 token 的全局统计数据进行猜测。虽然单层的 Transformer 无法可靠地预测上下文二元，但该研究发现通过开发感应头（induction head）机制的双层 Transformer 取得了成功，即拥有两个注意力头的 circuit，其允许 Transformer 从上下文 [・・・, a, b,・・・, a] 中预测 b，并且在 Transformer 语言模型中似乎无处不在。这种感应头（induction head）机制在 Transformer 语言模型中是普遍存在的，并且取得了成功。

更进一步的，为了更好的了解上下文机制是怎样出现在训练过程中的，该研究在随机初始化时冻结了一些层（包括嵌入和值矩阵）来进一步简化模型架构。这样一来研究重点转移到注意力和前馈机制，同时避免了学习表征的困难。与此同时，这种简化还为单个权重矩阵引入了一个自然模型作为联想记忆。自然模型可以通过它们的外积存储输入 - 输出或键 - 值对嵌入。随机高维嵌入由于其接近正交性而特别适合这种观点。

总结而言，该研究的贡献可概括为：