动机、参考资料、涉及内容【加上各处链接】

动机

最近发现了一些工作之间的引用关系, 例如:

  • chatglm2 中使用了 Multi-Query Attention 技术, 实际测试下来对推理速度的提升还是十分显著的
  • chatglm2, gptj, llama 等模型均使用了 RoPE 位置编码技术
  • T5, llama 等模型均使用了 RMSNorm 而非 LayerNorm, 前者据说相对后者也能减少一些计算量
  • RWKV 模型受到 AFT 的启发

虽然近期出现的许多大模型似乎还是基本沿用 Attention is all you need 这篇论文里的原始 Transformer 架构, 但近期也从各种消息渠道里发现了许多试图对 Transformer 进行改进甚至挑战的工作, 例如: RWKV, RetNet 等, 而 Transformer 从 2017 年被提出至今已有 6 年, 笔者相信 Transformer 架构并非完美, 而新的架构几乎必然是在以前的工作中受到启发, 因此本文将对 Transformer 的一些改进工作进行介绍. 本文只假定读者熟悉 Attention is all you need 论文里的原始架构.

本文的第二个动机是找个机会细细品读一下苏剑林大佬的一些博客, 算是做个笔记

参考资料

关于科学空间, 笔者简单探索了一下大佬的博客归档, 有如下发现:

  • 这个页面是所有文章的归档, 详细“食用指南”参考这篇博客
  • 笔者看到的大佬的第一篇与机器学习/深度学习相关的博客是 2015/06/06 发表的这篇博客: 闲聊:神经网络与深度学习
  • 大佬早期也有许多与技术无关的随笔, 今年来基本保持每周一篇