我们可以这样简单理解三者之间的关系: 深度学习是机器学习的一个分支,机器学习是人工智能的一个核心领域。
机器学习是人工智能的一个核心子领域,它专注于开发算法和模型,使计算机能够从数据中自动学习和改进。简单来说,机器学习的目标是让计算机通过数据“学会”某种规律或模式。
机器学习又分为多种不同的算法,如监督学习、无监督学习以及强化学习。
想象一下,你正在教一个小孩子学习如何识别苹果和香蕉。你会怎么做呢?
你可能会拿一些苹果和香蕉的图片,然后指着图片告诉孩子:“这是苹果,这是香蕉。”慢慢地,孩子就会学会,以后再看到类似的图片时,就能自己分辨出这是苹果还是香蕉。
监督学习就是类似的过程,只不过是在教计算机学习。
监督学习是一种让计算机通过“学习”来解决问题的方法。具体来说,就是给计算机很多已经“标注好答案”的例子,让它从中找出规律,然后用这些规律去解决新的问题。
比如想要判断一张图片是猫还是狗。那么我们需要给计算机很多猫和狗的图片,并且告诉它哪些是猫,哪些是狗。计算机学会了区分猫和狗的特征,以后再看到新的图片时,就能自己判断出是猫还是狗。
监督学习的两个关键点
想象一下,你给一个小孩子一堆玩具,但没有告诉他这些玩具的名字或者分类方式。孩子自己会去观察这些玩具,把它们分成几组,比如把所有的小汽车放在一起,把所有的洋娃娃放在一起,或者把所有红色的玩具放在一起。孩子是根据自己的观察和判断来分组的,而不是按照别人告诉他的规则。
无监督学习就是类似的,只不过是在让计算机自己去发现数据中的规律和结构。
无监督学习是一种让计算机自己探索数据的方法。和监督学习不同,无监督学习没有“正确答案”可以参考。计算机需要自己去观察数据,找出其中的模式、规律或者分组方式。
比如现在有一堆照片,但没有告诉计算机照片的内容。计算机自己观察这些照片,比如把所有风景照放在一起,把所有人物照放在一起。计算机自己发现了照片的分类方式,而不是别人告诉它的。
假设你是一家超市的老板,想了解顾客的购买习惯,但你没有预先设定的分类方式。你可以用无监督学习来分析顾客的购买数据:顾客的购买记录,比如买了什么商品、花了多少钱、购物的频率等。然后让计算机自己分析这些数据,发现一些规律,比如把顾客分成“经常购买生鲜的顾客”“喜欢买零食的顾客”“偶尔购物的顾客”等。在这个过程中是计算机自己发现了顾客的分群方式,而不是你事先告诉它的。
无监督学习的两个关键点
想象一下,你正在教一只小狗学会“坐下”这个动作。你会怎么做呢?每次小狗成功坐下时,你就会给它一块小零食作为奖励,如果它没有坐下,你可能就不会给奖励。慢慢地,小狗会发现,只要它坐下,就会得到奖励,于是它就会越来越频繁地坐下。
强化学习就是类似的过程,只不过是在教计算机或者机器人学习。
强化学习是一种让计算机或机器人通过“试错”来学习的方法。它就像一个正在探索世界的小孩子,通过不断地尝试,看看哪些行为会得到奖励,哪些行为会受到惩罚,然后根据这些反馈来调整自己的行为,最终学会如何做出最好的选择。 小狗学会了“坐下”。
强化学习的三个关键要素
强化学习的特点
机器学习常见算法是这些,在这些算法里边,一般是从监督学习开始
深度学习是一种让计算机通过“多层思考”来学习和解决问题的方法。它模仿了人脑的工作方式,就像大脑中有许多神经元一层一层地处理信息一样,深度学习也通过多层的“神经网络”来处理数据,从而发现数据中的复杂规律。
想象一下,你有一堆水果,包括苹果、香蕉和橙子。你希望让计算机学会区分这些水果。传统的方法可能需要你手动告诉计算机很多规则,比如“苹果是红色的”“香蕉是长条形的”“橙子是圆形的”。但深度学习不需要这样,它就像一个聪明的学生,自己通过观察和学习来发现水果的特征。
在深度学习中,你只需要给计算机这些照片,并告诉它每张照片对应的水果名称(比如“这是苹果”“这是香蕉”)。然后,计算机自己会通过多层的“思考”来学习如何区分这些水果。
多层思考
深度学习的核心是“神经网络”,它就像一个有很多层的筛子,每一层都在处理数据的一部分,逐步提取更复杂的特征。
深度学习的神奇之处在于,你不需要手动告诉计算机每一条规则,它会自己从数据中学习。比如,它可能会发现“苹果通常是红色或绿色的,表面光滑”“香蕉是黄色的,形状细长”“橙子是橙色的,表面有点凹凸”。
深度学习的特点
这些都是在人工智能领域我们常见的一些概念和术语,以及这些这些概念之间的一些关系。
简单来说:
生成式人工智能(Generative Artificial Intelligence)可以理解为一种“会创作的AI”。它通过学习大量数据(如文字、图片、音频等),掌握这些数据的规律,然后像人类艺术家一样创造出全新的内容。例如:
它的核心能力是模仿+创新——既不是完全复制已有内容,也不是随机乱造,而是基于学习到的模式生成合理的新内容。
生成式AI是深度学习的“高级应用“。
深度学习是“学会观察世界”,生成式 AI 则是“用学到的知识创作新事物”。
整体上来说,大模型的训练可以分为三个阶段:
预训练是大模型的基础学习阶段,通过“阅读”海量文本(如书籍、网页)学习语言的通用规律,类似人类通过广泛阅读积累常识。
预训练的流程一般是这样:
预训练的模型具备基础能力,知识面广,但是缺乏深度,能回答一些简单的基础问题,但是知识推理能力不足。此时的大模型相当于只会成语接龙。比如此时你问他埃菲尔铁塔在哪里,它可能回答你故宫在哪里,而不会回答法国,因为还缺乏推理能力。
这个阶段就像我们从小所接受的基础教育,语文、数学、英语、物理、化学、地理、历史、生物等等都要学习,广泛涉猎。
监督微调是在预训练基础上,用标注数据教模型完成具体任务(如回答问题、写邮件)。
监督微调的流程一般是这样:
这个阶段就像是我们读大学,选择一个专业精修,大学毕业之后,我们就具备了某一个领域的专业能力。
基于人类反馈的强化学习是指通过人类对答案的评分,让模型学会生成更符合人类偏好的回答(如更安全、更礼貌)。
RLHF 的流程一般是这样:
这个就像是我们工作之后,搬砖的过程中,可能受到领导的表扬,也可能受到领导的批评,这些就是反馈,在这个过程中我们学会总结经验,知道了如何让自己的工作更出色,得到更多表扬。
总结一下,这三个阶段的关系就是这样的:
| 阶段 | 类比 | 目标 | 结果 |
|---|---|---|---|
| 预训练 | 广泛读书的小孩 | 掌握语言基础 | 能说通顺的话,单但不够专业 |
| SFT | 学专项技能(如烹饪) | 完成特定任务 | 能写邮件、解答问题 |
| RLHF | 根据反馈改进(如试吃) | 符合人类偏好 | 回答更安全、有用、自然 |
最后再举个简单的例子,比如我们想利用大模型训练一个客服,那么我们的流程可能是这样:
预训练:模型读遍互联网,学会中文语法和常见问题(如“如何退款”)。
SFT:用标注数据训练它回答:“退款流程是:1.登录账号→2.提交申请…”。
RLHF:用户给回答打分,模型学会把“请联系管理员”优化为“我帮您转接人工服务”。
通过这三个阶段,大模型从“书呆子”成长为“专业助手”,既能理解需求,又能用人类喜欢的方式回应。
大模型通常包含数十亿至数万亿参数(如GPT-4参数达1.8万亿),远超传统模型。这种规模使其具备强大的表征能力,能够捕捉语言、图像等数据中的复杂模式。例如,GPT-3通过 1750 亿参数实现对自然语言的深度理解。
训练数据量通常达 TB 甚至 PB 级别,涵盖多语言文本、图像、音频等多模态信息。例如,GPT-3 使用 45TB 原始数据(清洗后 570 GB),通过自监督学习从海量数据中提炼通用知识。
训练需数百至上千 GPU 集群,耗时数周至数月。以 GPT-3 为例,需 3640 PFLOP·天的算力,相当于 512 张 A100 GPU 连续运行 1 个月。
当模型规模突破临界值(如千亿参数)时,会突然展现小模型不具备的复杂能力,例如逻辑推理、跨领域知识融合。例如,DeepSeek 模型在参数规模扩展后,意外展现出对数学难题的求解能力。
单一模型可同时处理翻译、摘要、问答等任务,无需针对每项任务单独设计架构。例如,Gemini 模型能同时处理文本、图像、音频输入并生成代码。
大语言模型是专注于文本模态的深度学习系统,通过海量文本数据预训练掌握语言规律,具备文本生成、理解、推理三大核心能力。典型代表包括 GPT 系列、DeepSeek R1、文心一言等。
大语言模型常见的应用场景如下:
由于模态单一,LLM 仅处理文本数据,无法直接理解图像、音频等信息;同时,因为 LLM 依赖训练数据时效,所以通常需结合 RAG(检索增强生成)更新知识。
多模态模型是能同时处理文本、图像、音频、视频等多种数据模态的 AI 系统,通过跨模态对齐实现信息融合与协同推理。代表模型包括 GPT-4V、Gemini、Qwen-VL 等。
LMM 一些常见的应用场景如下:
总结下,LLM 和 LMM 对比如下:
| 维度 | 大语言模型(LLMs) | 多模态模型(LMMs) |
|---|---|---|
| 输入模态 | 仅文本 | 文本、图像、音频、视频等 |
| 核心技术 | 自注意力机制、自回归预测 | 跨模态编码、联合表示学习 |
| 典型架构 | GPT、BERT、LLaMA | CLIP、Flamingo、GPT-4V |
| 优势场景 | 文本生成、逻辑推理 | 跨模态检索、多感官交互 |
| 硬件需求 | 单卡可运行7B参数模型 | 常需多卡并行处理高分辨率数据 |
| 开源生态 | 成熟(如LLama、DeepSeek开源版) | 仍处于早期阶段(Qwen-VL 等部分开源) |
分词化是将原始文本拆解为模型可处理的最小语义单元(Token)的过程,其核心作用包括:
| 方法 | 原理 | 典型模型 | 案例 |
|---|---|---|---|
| BPE(字节对编码) | 合并高频字符对形成子词,逐步构建词表 | GPT系列、Qwen模型 | 文本"low lower" -> 合并 "lo" 和 "w" 生成 "low" |
| WordPlece | 基于合并收益公式 score=共现次数/(单独出现次数1x次数2)选择最优合并对 | BERT | "hugs"拆为"hug"+"s"(合并收益0.05) |
| Unlgram LM | 动态淘汰对总概率贡献最小的子词 | T5 | 若"量子物理"概率贡献率低,则保留"量子"和"物理" |
| SentencePiece | 无空格分词,支持多语言混合处理 | Qwen、Gemini | 中文"帮我写诗" -> ["帮","我","写","一首","关于","量子物理","的诗"] |
中文分词就像给句子"拆积木",让电脑看懂汉字组合。常见的方法有这几种:
最后不管怎么拆,系统都会把每个词换成数字编码(就像快递单号),电脑拿着这些号码就能处理文本了。不过要注意,不同分词工具就像不同的厨师,切出来的词块可能不太一样,没有绝对正确的切法,主要看用在哪里。反正核心目标就是帮电脑理解我们说的话!
| 技术 | 核心突破 | 应用场景 | 局限性 |
|---|---|---|---|
| One-Hot | 简单独热编码(如"苹果"->[1,0,0]) | 传统分类任务 | 高维稀疏、无法表达语义关系 |
| Word2Vec | 通过CBOW/Skip-gram学习上下文语义(如"国王-男人+女人=王后") | 搜索引擎、推荐系统 | 无法处理OOV词、忽略词序 |
| BERT | 动态上下文编码(如"银行"在"存钱"与"超市"中向量不同) | 机器阅读理解 | 计算资源消耗大 |
| FastText | 子词拆分增强OOV处理(如"apple"->"ap"+"pp"+"pl"+"le") | 社交媒体文本分析 | 语义粒度较粗 |
同一个词,不同模型编号不同:比如 BERT 和 GPT 的词表不同,"我"的 ID 可能分别是 101 和 502。
未知词(OOV):如果遇到词表里没有的词(比如网络新词),可能会拆成子词(Subword)或标为 [UNK](未知符号)。
你可以把大语言模型想象成一个玩文字接龙的AI老司机,它的操作流程是这样的:
举个例子:
老司机的接龙秘籍:
为什么说它像老司机?
整个过程就像 AI 在玩超级加长版文字接龙,一边接词一边改稿,直到凑出一篇人模人样的推荐文案,这就是所谓的自回归。
登录查看全部
参与评论
手机查看
返回顶部