注:文章的原文有11个章节,分别是:
按照文章的顺序讲的话,太长(英文版的文章有97页,最新版的中文版本也有60页)而且和直接翻译一遍文章没有什么区别。
所以我准备按照自己对于文章的理解来展开对于这篇文章的分享。有不足的地方希望大家及时指出!
文章基本信息如下
- 文章名字:A Survey of Large Language Models
- 发表时间:2023年3月
- 发表期刊:arxiv(预印版)
- 发表机构:中国人民大学 - AI Box小组 (ruc.edu.cn)
时代背景:
- 自从20世纪50年代图灵测试被提出以来,人类一直在探索如何用机器掌握语言智能。
- 近年来,通过在大规模语料库上对Transformer 模型进行预训练,人们提出了预训练语言模型(Pre-training Language Model, PLM),其在解决各种自然语言处理(Natural Language Processing, NLP)任务方面表现出强大的能力。
- 近年来,学术界和工业界极大地 推进了针对LLM的研究,其中一个显著的进展是推出了ChatGPT(一种基于LLM开发的强大AI聊天机器人),它引起了社会的广泛 关注。
研究发现:
- 研究人员发现扩展模型规模可以提高模型能力,因此他们通过将参数增加到更大的 尺寸来进一步研究该效应。
- 有趣的是,当参数规模超过一定水平时,这些规模更大的语言模型的性能不仅得到了显著提升,而且还表现出 一些小规模语言模型(例如BERT)所不具备的特殊能力(例如上下文学习)。
文章讲了什么?
- 通过介绍大语言模型(large Language Model)的背景、主要发现和主流技术来回顾近年来的进展。
- 主要关注大语言模型(large Language Model)以下四个主要方面:①预训练,②适配微调,③使用,④能力评估
- 总结了开发LLM的可用资源,并讨论了LLM现有的问题和未来的发展方向。
- 提供了关于 LLM 的最新文献综述。
自从20世纪50年代图灵测试被提出以来,人类一直在探索如何用机器掌握语言智能。机器除非配备了强大的人工智能算法,否则不能自然地掌握以人类语言形式理解和交流的能力。实现让机器像人类一样阅读、写作和交流的目标, 一直是一个长期的研究挑战。作为一种主要的语言理解和生成方法,语言建模在过去的二十年中得到了广泛的研究,并从统计语言模型逐步发展为神经语言模型。

- (a)图显示了包含关键词
Language Model的arXiv文章累计数量统计(自2018年6月起)- (b)图显示了包含关键词
Large Language Model的arXiv文章累计数量统计(自2019年10月起)通过按月份查询标题或摘要中的关键词,使用精确匹配计算统计数据。(b)图中可以看出,ChatGPT发布后急剧在标题或摘要中包含“大型语言模型”的已发表arXiv论文的平均数量增加,从每天0.40篇增加到每天8.58篇
问题一:多大的模型才能算是大语言模型呢?
问题二:LLM和PLM有什么区别呢?
我的理解:
大语言模型(LLM)指的是的参数量非常庞大的语言模型,而预训练语言模型(PLM)指的是在一些通用的语料库上预先训练过的语言模型。
例如:前面提到的“ELMo被提出来通过预训练一个双向LSTM(bi-LSTM)”,它是预训练语言模型(PLM)但是不能算作大语言模型(LLM),因为它的参数量没有达到大语言模型的标准(虽然这个标准很模糊),但是它在一些语料库中进行过训练,所以能够称为预训练语言模型(PLM)。
所以,大语言模型(LLM)和预训练语言模型(PLM)之间存在交集,但不是被包含与包含的关系
Kaplan 等人(OpenAI 团队)于2023年首次提出了神经语言模型的性能与模型规模(N)、数据集规模(D)和训练计算量(C)之间的幂律关系。
计算公式如下
这三个规律是通过拟合模型在不同数据大小、模型大小和训练计算量下的性能得出的。结果表明,模型性能与这三个因素存在着强依赖关系。
KM扩展法则更偏向于将更大的预算分配给模型大小,而Chinchilla 扩展法则认为模型大小和数据大小应该以相同的比例增加。
大语言模型的涌现能力的定义:在小型模型中不存在但在大型模型中产生的能力
解释:当规模达到一定水平时,性能显著提高,超出随机水平。
大语言模型的三种典型涌现能力和具备这种能力的代表性模型:
大语言模型能够成功的几个可能的关键技术:
最近几年现有的大语言模型(参数量超过10B)发布的时间。黄色标记的是具有公开可用模型检查点的大语言模型。
GPT 系列模型的发展史:
- GPT-1于2018年6月发布,是一个只有编码器架构的生成预训练语言模型。
- GPT-2于2019年2月发布,是一个无监督多任务学习器模型。拥有4个模型版本:分别是Small(117M),Medium(345M),Large(762M),Extra Large(1542M)
- GPT-3于2020年5月发布,是一个拥有上下文学习能力的大语言模型。拥有8个模型版本,最小的参数规模为125M,最大的参数规模为175B
- Codex于2020年7月发布,是GPT-3添加了代码生成的能力,在代码的数据集上进行了预训练。
- GPT-3.5于2022年3月发布,是一个综合的大语言模型,拥有对话生成,文本阅读和理解等功能。参数规模为175B。
- GPT-4于2023年3月发布,是一个多模态大模型,拥有较强的综合推理能力。


图中展示的是
LLaMA的演变过程。
- 虚线部分部分代表使用其他数据
继续预训练,实线部分代表指令微调- 图中没有背景颜色的表示
有效参数微调,黄色背景颜色的表示全参数微调- 从图中可以看出,
LLaMA有三个主要的分支,分别是:
- 使用中文数据预训练后的
Chinese LLaMA- 使用合成数据进行微调的
Alpaca- 使用对话数据进行微调的
Vicuna- 在这三个主要的分支的基础上,又发展出了许多其他的模型,涵盖了数学,金融,医疗,法律,双语,教育等方面。其中有很多我们耳熟能详的模型,例如:
MiniGPT-4、PandaGPT、TaoLi等
预培训奠定了大语言模型(LLM)能力的基础。通过对大规模语料库的预训练,大语言模型(LLM)可以获得基本的语言理解和生成技能。预训练语料库的规模和质量是大语言模型(LLM)获得强大功能的关键。此外,为了有效地预训练大语言模型(LLM),模型架构,加速方法和优化技术需要很好地设计。
预训练通常包括:数据的收集和处理,模型的结构设计和模型训练的优化技术三个部分。不同的模型预训练可能存在一些特殊的情况,但是普遍的情况都会包含上述的三个部分。

上图中显示的是数据预处理的过程:
- 原始语料(Raw Corpus)输入到质量过滤器(Quality Filtering)进行一些过滤操作,例如:语言过滤,度量过滤,统计过滤,关键词过滤等。
- 过滤后的数据输入到重复过滤器中,去除句子,文档,集合中的重复部分。
- 去重之后的数据输入到隐私过滤器中,检测并去除一些包含个人隐私的信息。
- 去除隐私后的数据输入到分词其中,得到词汇表和数据对应的向量表示。

上图中现实的是在预训练过程中各种数据来源的占比.
- 图中可以看出,大部分大语言模型(LLM)都或多或少的使用了网页,书籍和新闻等数据
- 一些特殊的大语言模型(LLM)可能有针对性的使用了一些数据集进行训练或者微调
主流的大语言模型的架构如上图所示,分别是:因果解码器架构,前缀解码器架构和编码器-解码器架构。
图中蓝色的方块表示前缀token之间的注意力,绿色的方块表示前缀token和目标token之间的注意力,黄色的方块表示目标token之间的注意力,灰色的方块表示掩码注意力。
大语言模型(LLM)可以获得解决各种任务的通用能力,但是研究表明,可以通过进一步的适配是的大模型能够更好的解决特定的问题。
综述中主要谈及了两种常见的大语言模型的微调方法,分别是指令微调(instruction tuning)和对齐微调(alignment tuning)
指令微调是在自然语言格式的实例集合上微调预训练后的LLM的方法。这种发方法与有监督微调和多任务提示训练密切相关,旨在增强(或解锁) LLM的能力。
对齐微调旨在将LLM的行为与人类的价值观或偏好对齐。减少大语言模型生成一些有毒,有攻击性,有种族或者性别歧视等多种有悖于人类价值观的结果。
经过预训练或适配微调之后,使用LLM的主要方法是为解决各种任务设计适当的提示策略。本综述介绍了两种典型的提示策略,分别是:上下文学习(in-contextlearning, ICL)和思维链提示(chain-of-thought prompting)。
上下文学习(ICL)是典型的提示方法是将任务描述以自然语言文本的形式表达的上下文学习。上下文学习(ICL)使用一种由任务描述和作为示范的几个任务样例构成的自然语言提示。
我的理解:简单来说,上下文学习(ICL)就是给一段上下文,然后给一个问题,让大模型回答这个问题。没有中间的推理过程,只是回答给出的问题。
思维链提示(chain-of-thought prompting)可以通过将一系列中间推理步骤加入提示中来增强上下文学习(ICL)。
思维链(CoT)是一种改进的提示策略,旨在提高大语言模型(LLM)在复杂推理任务中的性能,例如算术推理,常识推理和符号推理。
不同于上下文学习(ICL)中仅使用输入输出对来构造提示,思维链(CoT)将可以导出最终输出的中间推理步骤纳入提示中。
我的理解:思维链提示(chain-of-thought prompting)是一种特殊的上下文学习(ICL)。思维链将中间的推理过程也用于提示,可以提高大语言模型在复杂推理任务中的性能。
上下文学习(ICL)和思维链(CoT)提示的比较说明。ICL用自然语言描述、几个演示和一个测试查询来提示LLM,而CoT提示涉及提示中的一系列中间推理步骤。
- 绿色部分表示任务的描述
- 浅蓝色部分表示问题的示例
- 蓝色部分表示中间推理的步骤(思维链)
- 黄色部分表示需要回答的问题
为了检验LLM的有效性和优越性,已有研究采用了大量的任 务和基准数据集来进行实证评估和分析。综述中介绍了大语言模型(LLM)在
语言生成和语言理解方面的三种基本评估任务。
现有语言生成的任务主要可以分为语言建模、 条件文本生成和代码合成任务。需要注意的是,代码合成不 是典型的自然语言处理任务,但可以直接地用(经过代码数 据训练的)LLM以类似自然语言文本生成的方法解决。
- 语言建模:语言建模是大语言模型(LLM)的基本能力,旨在基于前一个 token 预测下一个 token,主要关注基本的语言理解和生 成能力。
- 条件文本生成:条件文本生成旨在基于给定的条件生成满足特定任务需求的文本, 通常包括机器翻译、文本摘要和问答系统等。
- 代码合成:除了生成高质量的自然语言外,现有的大语言模型(LLM)还表现出强大的生成形式语言的能力,尤其是满足特定条件的计算机程序,这种能力被称为代码合成。
知识利用是一种智能系统基于事实证据的支撑,完成知识密集型任务的重要能力(例如常识问题回答和事实补全)。具体而言,它要求大语言模型(LLM)适当地利用来自预训练语料库的丰富事实知识,或在必要的时候检索外部数据。现有的知识利用任务分为三种类型,即闭卷问答,开卷问答和知识补全。
- 闭卷问答:闭卷问答任务测试大语言模型(LLM)从预训练语料库中习得的事实知识。大语言模型(LLM)只能基于给定的上下文回答问题, 而不能使用外部资源。
- 开卷问答:与闭卷问答不同,在开卷问答任务中,大语言模型大语言模型(LLM)可以从外部知识库或文档集合中提取有用的证据,然后基于提取的证据回答问题。
- 知识补全:在知识补全任务中,大语言模型(LLM)可以被视为一个知识库,补全或预测知识单元的缺失部分。这种任务可以探索和评估大语言模型(LLM)从预训 练数据中学习到的知识的数量和种类。
复杂推理是指理解和利用相关的证据或逻辑来推导结论或做出决策的能力。根据推理过程中涉及的逻辑和证据类型,我们考虑将现有的评估任务分为三个主要类别,即知识推理、符号推理和数学推理。
- 知识推理:知识推理任务依赖于逻辑关系和事实知识的证据来回答给定的问题。
- 符号推理:符号推理任务主要关注于在形式化规则设定中操作符号以实现某些特定目标,且这些操作和规则可能在大语言模型(LLM)预训练期间从未被看到过。
- 数学推理:数学推理任务需要综合利用数学知识、逻辑和计算来解决问题或生成证明过程。
大语言模型(LLM)的基础评测任务和相应的代表性数据集
| Level | Ability | Task | Dataset |
|---|---|---|---|
| Basic | Language Generation | Language Modeling | Penn Treebank, WikiText-103, the Pile, LAMBADA |
| Conditional Text Generation | WMT’14,16,19,20,21,22, Flores-101, DiaBLa, CNN/DailyMail, XSum, WikiLingua OpenDialKG | ||
| Code Synthesis | APPS, HumanEval, MBPP, CodeContest, MTPB, DS-1000, ODEX | ||
| Knowledge Utilization | Closed-Book QA | Natural Questions, ARC, TruthfulQA, Web Questions, TriviaQA, PIQA, LC-quad2.0, GrailQA, KQApro, CWQ, MKQA, ScienceQA | |
| Open-Book QA | Natural Questions, OpenBookQA, ARC, TriviaQA, Web Questions, MS MARCO, QASC, SQuAD, WikiMovies | ||
| Knowledge Completion | WikiFact, FB15k-237, Freebase, WN18RR, WordNet, LAMA, YAGO3-10,YAGO | ||
| Complex Reasoning | Knowledge Reasoning | CSQA, StrategyQA, HotpotQA, ARC, BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, COPA, OpenBookQA, ScienceQA, proScript, ProPara, ExplaGraphs, ProofWriter, EntailmentBank, ProOntoQA | |
| Symbolic Reasoning | CoinFlip, ReverseList, LastLetter, Boolean Assignment, Parity, Colored Object, Penguins in a Table, Repeat Copy, Object Counting | ||
| Mathematical Reasoning | MATH, GSM8k, SVAMP, MultiArith, ASDiv, MathQA, AQUA-RAT, MAWPS, DROP, NaturalProofs, PISA, miniF2F, ProofNet | ||
| Advanced | Human Alignment | Honestness | TruthfulQA, HaluEval |
| Helpfulness | HH-RLHF | ||
| Harmlessness | HH-RLHF, Crows-Pairs WinoGender, RealToxicityPrompts | ||
| Interaction with External Environment | Household | VirtualHome, BEHAVIOR, ALFRED ,ALFWorld | |
| Website Environment | WebShop, Mind2Web | ||
| Open World | MineRL, MineDojo | ||
| Tool Manipulation | Search Engine | HotpotQA, TriviaQA, Natural Questions | |
| Code Executor | GSM8k, TabMWP, Date Understanding | ||
| Calculator | GSM8k, MATH, CARP | ||
| Model Interface | GPT4Tools, Gorilla | ||
| Data Interface | WebQSP, MetaQA, WTQ WikiSQL, TabFact, Spider |
本文的主要贡献:
本文最后在一下几个方面,介绍了大语言模型(LLM)的挑战和未来方向:
灾难性遗忘一直是神经网络的长期挑战,其对大语言模型(LLM)也有负面影响。Transformer变体十分重要,例如 GPT-3 中已经使用了稀疏注意力。数据质量和训练技巧要求很高。| 分类 | 模型 | 发表时间 | 大小(B) | 链接 |
|---|---|---|---|---|
| 开源 大模型 |
T5 | 2019/10 | 11 | 论文链接 |
| mT5 | 2021/03 | 13 | 论文链接 | |
| PanGu-α | 2021/05 | 13 | 论文链接 | |
| CPM-2 | 2021/05 | 198 | 论文链接 | |
| T0 | 2021/10 | 11 | 论文链接 | |
| GPT-NeoX-20B | 2022/02 | 20 | 论文链接 | |
| CodeGen | 2022/03 | 16 | 论文链接 | |
| Tk-Instruct | 2022/04 | 11 | 论文链接 | |
| UL2 | 2022/02 | 20 | 论文链接 | |
| OPT | 2022/05 | 175 | 论文链接 | |
| YaLM | 2022/06 | 100 | GitHub | |
| NLLB | 2022/07 | 55 | 论文链接 | |
| BLOOM | 2022/07 | 176 | 论文链接 | |
| GLM | 2022/08 | 130 | 论文链接 | |
| Flan-T5 | 2022/10 | 11 | 论文链接 | |
| mT0 | 2022/11 | 13 | 论文链接 | |
| Galatica | 2022/11 | 120 | 论文链接 | |
| BLOOMZ | 2022/11 | 176 | 论文链接 | |
| OPT-IML | 2022/12 | 175 | 论文链接 | |
| Pythia | 2023/01 | 12 | 论文链接 | |
| LLaMA | 2023/02 | 65 | 论文链接 | |
| Vicuna | 2023/03 | 13 | Blog | |
| ChatGLM | 2023/03 | 6 | GitHub | |
| CodeGeeX | 2023/03 | 13 | 论文链接 | |
| Koala | 2023/04 | 13 | Blog | |
| 不开源 大模型 |
GShard | 2020/01 | 600 | 论文链接 |
| GPT-3 | 2020/05 | 175 | 论文链接 | |
| LaMDA | 2021/05 | 137 | 论文链接 | |
| HyperCLOVA | 2021/06 | 82 | 论文链接 | |
| Codex | 2021/07 | 12 | 论文链接 | |
| ERNIE 3.0 | 2021/07 | 10 | 论文链接 | |
| Jurassic-1 | 2021/08 | 178 | 论文链接 | |
| FLAN | 2021/10 | 137 | 论文链接 | |
| MT-NLG | 2021/10 | 530 | 论文链接 | |
| Yuan 1.0 | 2021/10 | 245 | 论文链接 | |
| Anthropic | 2021/12 | 52 | 论文链接 | |
| WebGPT | 2021/12 | 175 | 论文链接 | |
| Gopher | 2021/12 | 280 | 论文链接 | |
| ERNIE 3.0 Titan | 2021/12 | 260 | 论文链接 | |
| GLaM | 2021/12 | 1200 | 论文链接 | |
| InstructGPT | 2022/01 | 175 | 论文链接 | |
| AlphaCode | 2022/02 | 41 | 论文链接 | |
| Chinchilla | 2022/03 | 70 | 论文链接 | |
| PaLM | 2022/04 | 540 | 论文链接 | |
| Cohere | 2022/06 | 54 | Homepage | |
| AlexaTM | 2022/08 | 20 | 论文链接 | |
| Luminous | 2022/09 | 70 | Docs | |
| Sparrow | 2022/09 | 70 | 论文链接 | |
| WeLM | 2022/09 | 10 | 论文链接 | |
| U-PaLM | 2022/10 | 540 | 论文链接 | |
| Flan-PaLM | 2022/10 | 540 | 论文链接 | |
| Flan-U-PaLM | 2022/10 | 540 | 论文链接 | |
| Alpaca | 2023/03 | 7 | Blog | |
| GPT-4 | 2023/3 | - | 论文链接 | |
| PanGU-Σ | 2023/3 | 1085 | 论文链接 |
如果觉得文章对你有帮助的话,欢迎引用文章的原文
@article{LLMSurvey,
title={A Survey of Large Language Models},
author={Zhao, Wayne Xin and Zhou, Kun and Li, Junyi and Tang, Tianyi and Wang, Xiaolei and Hou, Yupeng and Min, Yingqian and Zhang, Beichen and Zhang, Junjie and Dong, Zican and Du, Yifan and Yang, Chen and Chen, Yushuo and Chen, Zhipeng and Jiang, Jinhao and Ren, Ruiyang and Li, Yifan and Tang, Xinyu and Liu, Zikang and Liu, Peiyu and Nie, Jian-Yun and Wen, Ji-Rong},
year={2023},
journal={arXiv preprint arXiv:2303.18223},
url={http://arxiv.org/abs/2303.18223}
}
本文来自博客园,作者:DavidDeng01,转载请注明原文链接:https://www.cnblogs.com/David-deng/p/17786107.html
登录查看全部
参与评论
手机查看
返回顶部