
https://arxiv.org/pdf/2311.17633.pdf
https://github.com/NiuTrans/Introduction-to-Transformers/blob/main/README-zh.md
Transformer无疑已经成为自然语言处理、计算机视觉、语音处理等诸多人工智能领域应用最广泛的神经网络架构。特别是随着最近大语言模型的崛起,Transformer作为基础架构更是受到空前的关注。但是,Transformer相关技术日新月异,学术界已经发表了浩如烟海的论文。虽然以Transformer为主题的综述论文、博客讲解、开源系统层出不穷,系统性总结Transformer背后的相关技术进展,在当下仍然是十分有价值且必要的。
近期,东北大学自然语言处理实验室和小牛翻译团队发表了一篇Transformer的最新介绍性文章Introduction to Transformer: an NLP Perspective。
全文共119页,从自然语言处理的角度,全面介绍了Transformer模型的基础知识和其在自然语言处理应用中的进展,搭配开源项目的推荐阅读论文列表帮助读者快速切入感兴趣的模块。

这项工作首先介绍Transformer基础架构,然后从“融入语法信息”和“改进模型架构”两个角度讨论Transformer如何应用于NLP系统。

语法模型部分,作者提到将语法结构信息作为先验知识融入Transformer模型的设计,如图展现的多分支模型引入外部结构信息。

架构改进部分,作者从机器学习角度出发,讨论提高模型性能的架构设计,如局部注意力建模、模型容量扩展等等,同时解决训练成本较大的问题。例如,下图利用数值ODE方法的思想指导Transformer模型残差网络部分的设计。

高效模型部分涉及很多Transformer的前沿技术,作者针对不同效率目标,讨论Transformer模型不同的高效优化方法。例如,Transformer可以被视为存储系统保留序列信息,那么可以改进注意力计算机制,减少内存占用。

再例如,在Transformer架构可能的替代品中,作者提到了最近大受关注的Mamba架构中使用的状态空间模型(State-space Models)。

以及条件计算等高效方法在Transformer中的应用。

最后,作者举例说明目前Transformer在人工智能各个领域的广泛应用,如图展现了视觉-文本模型基于Transformer编码器、解码器处理多模态数据的方式。

此外,作者系统性地总结基于Transformer的若干应用,划分Transformer模型研究中的若干重要领域,提供了一幅Transformer总览图。

这些领域可以被总结为:
- 1. Transformer基础
- 2. 注意力模型
- 3. 词嵌入和位置嵌入
- 4. 训练和扩展性
- 5. 高效模型
- 6. 推理
- 7. 应用
- 8. 大语言模型作为基础模型
- 9. 理论分析
作者在GitHub上同步推出中文版介绍,也给出了上述领域的一些代表性工作,供读者快速了解相关进展。


这项工作一目了然地呈现了Transformer的关键模块,不仅能够帮助NLP初学者清晰梳理Transformer学习框架,明确学习思路,还为NLP从业者提供了Transformer关键技术的深入解读和快速切入口,为科研工作带来新的启发。