(P1) GPT-1，2，3，instructGPT，chatGPT

Feb 12, 2023

动机、参考资料、涉及内容

见下文

GPT-1, GPT-2, GPT-3

相关论文的时间线及参数量：

transformer: Google (2017.6)
GPT-1: OpenAI (2018.6), 110M, 预训练加微调
bert: Google (2018.10), base: 110M, large: 340M, 预训练加微调
GPT-2: OpenAI (2019.2), 117M/345M/762M/1542M, 用 prompt 做 zero-shot（但当时不叫 prompt，但这个做法之前有论文提出过）
GPT-3: OpenAI (2020.5), large: 175 billion, 主推 few-shot 的 prompt 方式，论文中也被称作 in-context learning

一些有意思的观点和记录

GPT 系列一直采用单向的标准的语言模型，预训练难度高于 BERT 的掩码预训练任务，所以模型和数据量比较小时（GPT-1 与 BERT-base 规模相当），效果不如 BERT，但数据量及模型大小加大之后，GPT 这种训练方式得到的预训练模型可能更强。
Common Crawl：一个公开的爬虫项目（GPT-2 论文中有提及，但没有使用。GPT-3 论文使用了该数据集，但做了许多的数据清洗）