Deep Dive into LLMs like ChatGPT - 8
豆包AI总结出的笔记
大语言模型(LLM)核心技术全解析
章节一:大语言模型整体介绍与训练总流程
核心内容翻译
本视频旨在为普通观众全面介绍ChatGPT这类大语言模型,搭建理解该工具的思维框架——它在某些方面表现卓越,在另一些方面却不尽如人意,同时还存在诸多需要注意的“技术短板”。视频将拆解大语言模型的完整构建流程,兼顾认知心理学层面的应用启示,且全程保持内容的通俗性,让非专业观众也能理解。
大语言模型的训练分为预训练、后训练(含监督微调)和强化学习三个核心阶段,按顺序逐步推进,各阶段的计算成本、训练目标和数据类型差异显著,最终将原始的“互联网文本模拟器”打磨为能与人交互的智能助手。
核心结论
- 大语言模型是一把“双刃剑”,有显著优势也存在技术短板,需理性看待其能力边界;
- 模型训练遵循预训练-后训练-强化学习的三段式流程,各阶段分工明确、循序渐进;
- 本教程将从技术构建、认知特性、实际应用等维度解析大语言模型,内容兼顾专业性与通俗性。
章节二:预训练阶段——互联网文本的处理与token化
核心内容翻译
预训练是大语言模型的基础阶段,核心目标是让模型从互联网文本中学习语言规律和世界知识,分为数据采集与处理、文本token化两个关键步骤。
- 数据采集与处理:主流模型的训练数据均基于类似Hugging Face的FineWeb数据集,原始数据主要来自Common Crawl(自2007年起爬取互联网,2024年已索引27亿个网页)。原始数据需经过多轮过滤:URL过滤(剔除恶意、垃圾、成人内容等网站)、文本提取(从HTML中剥离纯文本,去除导航、代码等冗余信息)、语言过滤(如FineWeb保留65%以上为英文的网页,决定模型的语言能力偏向)、去重和PII移除(检测并删除地址、社保号等个人身份信息),最终FineWeb数据集仅占44TB磁盘空间,是经过高度筛选的高质量文本。
- 文本token化:模型无法直接处理文本,需将其转换为一维符号序列。过程为:先将文本UTF-8编码为二进制位(0/1),再组合为字节(8位,256种可能),最后通过字节对编码(BPE) 算法合并高频字节组合,生成更大的词汇表。GPT-4的词汇表包含100277个token(符号),每个token是文本的最小单位,可对应单个字符、单词或短语,且token化区分大小写、空格等细节(如“Hello World”是3个token,“hello world”是2个token)。FineWeb数据集最终被转换为约15万亿个token的序列,成为模型训练的原始输入。
核心结论
- 预训练的核心是从高质量、多样化的互联网文本中学习语言规律,数据过滤是保证模型质量的关键,过滤规则决定模型的能力偏向(如语言、内容安全性);
- token化是文本向模型可处理格式的转换过程,BPE算法是主流方案,通过平衡词汇表大小和序列长度提升训练效率,token是模型处理文本的最小单位;
- 预训练数据经多轮处理后体量大幅缩减,最终以token序列形式输入模型,GPT-4等主流模型的token化有严格的格式规则(大小写、空格敏感)。
章节三:预训练阶段——神经网络训练与推理的核心逻辑
核心内容翻译
- 神经网络训练:核心目标是让模型学习token序列的统计关联,即根据前文token预测下一个token。训练时从token序列中截取固定长度的窗口(如8000个token,称为模型的“上下文长度”),将前N个token作为上下文输入,让模型预测第N+1个token。模型初始参数是随机的,输出为词汇表中所有token的出现概率,通过损失函数计算预测值与真实值的误差,不断调整参数,让正确token的概率升高、错误token的概率降低。这个过程会在海量token窗口上批量、并行执行,本质是让模型的预测结果匹配训练数据的统计规律。
- 神经网络结构:主流模型采用Transformer架构,由注意力模块、多层感知机(MLP)等组成,包含数亿至万亿级的参数。参数可理解为模型的“知识储备”,训练过程就是调整这些参数以匹配数据规律。Transformer的输入是token序列,先将token转换为嵌入向量,再经过多层数学运算(层归一化、矩阵乘法、SoftMax等),最终输出下一个token的概率分布。需要注意的是,模型的神经元是简单的数学表达式,无记忆能力,与人类大脑的神经元有本质区别。
- 模型推理:推理是模型利用训练好的参数生成新文本的过程,核心是逐token生成。先输入初始前缀token,模型输出下一个token的概率分布,通过随机采样选择一个token并追加到序列中,再将新的序列作为输入,重复上述过程,直至生成指定长度的文本。模型是随机化系统,即使输入相同的前缀,每次采样的结果也可能不同,生成的文本是训练数据的“统计重构”,而非简单复制。
核心结论
- 预训练的核心任务是预测下一个token,训练过程是通过调整模型参数最小化预测误差,让模型学习token序列的统计规律;
- Transformer是大语言模型的主流架构,由多个模块化的数学运算组成,参数是模型的核心知识载体,模型无内置记忆,是纯静态的数学函数;
- 模型推理是逐token的随机采样过程,输入相同前缀可能生成不同结果,生成的文本是训练数据的统计重构,而非逐字复制。
章节四:预训练的实例与计算资源需求
核心内容翻译
以OpenAI的GPT-2为例解析预训练的实际特征:GPT-2于2019年发布,是首个具备现代大语言模型核心特征的模型,采用Transformer架构,含16亿参数,最大上下文长度1024个token,训练数据约1000亿个token。2019年训练GPT-2的成本约4万美元,而2025年借助优化的数据集、更高效的硬件和软件,成本可降至约100美元,仅需1天时间。
模型训练对计算资源要求极高,无法在普通笔记本电脑上运行,需依赖云端的GPU集群。以训练GPT-2的A100节点为例,单个节点含8张H100 GPU,按3美元/张/小时的价格租赁,而大型科技公司会搭建包含数万台GPU的超算中心(如马斯克的xAI拥有10万个GPU)。GPU的核心优势是并行计算能力,能高效处理模型训练中的矩阵乘法等密集型运算,这也是英伟达市值飙升的核心原因。
训练过程中需关注损失值(Loss):损失值是衡量模型预测效果的核心指标,值越低表示预测越准确,训练过程中损失值应持续下降。训练初期模型生成的文本是无意义的乱码,随着训练步数增加,文本的连贯性会逐步提升,当训练完成后,模型能生成符合语言规律的文本。
核心结论
- GPT-2是现代大语言模型的里程碑,其核心架构和训练逻辑被后续模型沿用,仅在参数规模、上下文长度、训练数据量上持续扩大;
- 大语言模型训练的计算成本随技术发展快速下降,核心原因是数据集质量提升、GPU硬件性能增强、训练软件优化;
- GPU是模型训练的核心硬件,并行计算能力是关键,大型科技公司的GPU集群是训练超大模型的基础,损失值是监控训练效果的核心指标。
章节五:基础模型(Base Model)的特性与实际表现
核心内容翻译
预训练完成后得到的模型称为基础模型(Base Model),本质是“互联网文本token模拟器”,并非可直接交互的助手,其核心特性和表现如下:
- 核心能力:基础模型仅具备文本补全能力,无问答、指令遵循等功能,对输入的处理本质是“高成本的自动补全”,例如输入“2+2=”,模型不会直接给出答案,而是根据互联网文本的统计规律补全后续内容;
- 随机性:模型是随机化系统,相同输入会生成不同结果,因为每次都会从概率分布中随机采样下一个token;
- 知识储备:模型的参数是对互联网文本的有损压缩,存储了世界知识,但知识是模糊的、概率性的,高频信息的准确率更高,低频信息易出错;
- 记忆与复述:模型对高频、高质量的文本(如维基百科)有极强的记忆能力,可能会逐字复述训练数据中的内容(称为“文本回吐”),这是因为这类文本在训练中被多次采样,模型对其token序列的预测误差极低;
- 知识截止与幻觉:模型的训练数据有知识截止时间(如Llama 3的知识截止到2023年底),对截止时间后的信息(如2024年大选)会进行幻觉生成,即基于已有知识进行猜测,生成看似合理但不实的内容;
- 上下文学习能力:基础模型具备少样本学习能力,通过在输入中加入示例(如“苹果-사과、香蕉-바나나、老师-?”),模型能学习示例中的规律并完成任务,无需重新训练;
- 通过提示词构建助手:可通过精心设计的提示词让基础模型模拟助手,例如在输入中加入“人类-助手”的对话示例,模型会根据示例的统计规律继续对话,实现简单的问答功能。
核心结论
- 基础模型是预训练的产物,本质是互联网文本补全工具,无原生的问答和指令遵循能力,不能直接作为智能助手使用;
- 基础模型的知识是对互联网的有损概率性压缩,高频信息准确、低频信息易出错,存在文本回吐、知识截止和幻觉等问题;
- 基础模型具备上下文少样本学习能力,可通过精心设计的提示词模拟助手功能,无需重新训练参数。
章节六:后训练阶段——监督微调(SFT)将基础模型转为助手
核心内容翻译
后训练的核心目标是将基础模型打磨为能遵循人类指令的助手模型,核心步骤是监督微调(Supervised Fine-Tuning, SFT),该阶段的计算成本远低于预训练(预训练需数月,监督微调仅需数小时)。
- 核心逻辑:监督微调的算法与预训练一致(仍为预测下一个token),唯一的区别是训练数据从互联网文本替换为人类标注的对话数据。通过让模型学习人类的对话规律,使其从“文本补全器”转变为“对话助手”。
- 对话数据的构建:对话数据由人类标注者创建,标注者需根据企业制定的标注指南(通常数百页,要求助手“有用、真实、无害”),为各类人类指令编写理想的回复。早期数据完全由人类手动创建,现代则结合大语言模型辅助生成(模型先生成回复,人类再编辑优化),形成数百万条涵盖多领域、多轮次的对话数据集(如UltraChat)。
- 对话的token化:对话是结构化数据,需通过特殊token将其转换为一维token序列,例如加入
<|im_start|>(对话开始)、<|user|>(用户)、<|assistant|>(助手)、<|im_end|>(对话结束)等特殊token,让模型识别对话的角色和结构。不同企业的对话编码规则略有差异,但核心都是将结构化对话转为模型可处理的token序列。 - 推理时的对话处理:用户与助手交互时,系统会将历史对话按编码规则转换为token序列,模型基于该序列预测助手的下一个回复token,实现多轮对话。例如用户输入“2+2=”,系统会构建
<|im_start|><|user|>2+2=<|assistant|>的token序列,模型基于此生成回复。
核心结论
- 监督微调是后训练的核心步骤,通过替换训练数据为人类标注对话,让基础模型从文本补全器转为对话助手,算法与预训练一致,计算成本极低;
- 对话数据的质量决定助手模型的表现,由人类标注者根据“有用、真实、无害”的标注指南创建,现代采用“模型生成+人类编辑”的混合方式提升效率;
- 需通过特殊token将结构化对话转换为一维token序列,让模型识别角色和对话结构,这是模型实现多轮对话的基础。
章节七:大语言模型的认知特性——幻觉及缓解方法
核心内容翻译
幻觉是大语言模型的核心问题,指模型生成看似合理但与事实不符的内容,其产生的根本原因是:模型在训练中学习到“对问题的回复需呈现自信的语气”,但当面对未知问题时,不会输出“我不知道”,而是基于统计规律生成最可能的内容,从而产生幻觉。
幻觉的两大缓解方法
- 基于模型自知的拒绝回复:通过实证探测确定模型的知识边界,即向模型提出大量问题,对比其回答与正确答案,判断模型是否掌握该知识。对于模型未知的问题,在训练数据中加入“我不知道”的回复示例,让模型学习“当自身不确定时,拒绝给出答案”。例如Meta在训练Llama 3时,通过该方法让模型学会识别自身的知识盲区,大幅降低幻觉概率。
- 引入工具增强事实性:让模型在生成答案前,通过工具调用获取真实信息,替代单纯的参数内知识回忆。核心是为模型引入特殊工具token(如
<|search_start|>、<|search_end|>),当模型判断自身无法回答问题时,生成工具token触发网络搜索,搜索结果会被加入模型的上下文窗口(相当于模型的“工作记忆”),模型基于搜索结果生成答案,从而保证事实性。
核心补充:参数知识与上下文知识的区别
- 参数内知识:是模型预训练时存储在参数中的知识,相当于人类的“长期记忆”,是对互联网的模糊回忆,准确率随信息频率降低而下降;
- 上下文窗口知识:是模型推理时输入的外部信息(如搜索结果、用户提供的文本),相当于人类的“工作记忆”,模型可直接访问,准确率极高。
实际应用中,若需模型处理特定文本(如总结某篇文章),直接将文本粘贴到提示词中,让模型基于上下文窗口处理,效果远优于让模型依靠参数内知识回忆。
核心结论
- 幻觉的本质是模型为遵循训练中的回复规律,对未知问题进行概率性猜测,而非主动欺骗,是模型的固有认知特性;
- 缓解幻觉的核心方法分为两类:让模型识别自身知识盲区并拒绝回复、引入工具调用获取外部真实信息,后者能从根本上提升答案的事实性;
- 模型的知识分为参数内长期记忆和上下文窗口工作记忆,实际应用中应尽量将关键信息放入上下文窗口,提升模型处理的准确性。
章节八:大语言模型的认知特性——自我认知与数学/计数能力短板
核心内容翻译
一、自我认知特性
模型无原生的自我认知,其对“自身身份”的回答(如“我是ChatGPT,由OpenAI开发”)并非模型的自主认知,而是通过两种方式“硬编码”的:
- 在监督微调数据中加入身份问答示例:如在训练数据中加入“你是谁?-我是Llama 3,由Meta开发”等对话,让模型学习固定的身份回复;
- 在对话开始时加入系统提示词:在模型的上下文窗口中,隐藏加入包含模型身份、知识截止时间的系统提示词,模型基于该提示词生成身份相关回复。
若未进行上述硬编码,模型对身份问题的回答会是随机的幻觉内容,因为其参数中未存储关于“自身”的知识。
二、数学与计数能力短板
模型的数学和计数能力存在显著短板,核心原因是:模型的每一步token生成仅能进行有限的计算(Transformer的层数固定,如100层),无法在单个token生成中完成复杂的运算。若要求模型在单个token中给出数学题答案,其会因计算能力不足而出错;而计数能力差则是因为模型仅能识别token,无法直接识别字符,例如“strawberry”是一个token,模型无法直接统计其中的字母数量。
能力短板的解决方法
- 分散计算到多个token:让模型将复杂运算拆解为多个步骤,逐token生成中间计算结果,例如解“3个苹果+2个橙子共13美元,橙子2美元/个,求苹果单价”时,先计算橙子总价,再计算苹果总价,最后计算单价,通过多个token的分步计算提升准确率;
- 引入代码解释器工具:让模型生成代码并调用Python解释器执行,将数学计算、计数等任务交给代码完成,模型仅负责生成代码和解读结果,从根本上解决计算能力不足的问题。
核心结论
- 大语言模型无原生自我认知,其身份回答是通过监督微调数据或系统提示词硬编码的,并非自主意识的体现;
- 模型数学和计数能力差的核心原因是单token生成的计算能力有限且无法直接识别字符(仅识别token),是由模型的底层设计决定的;
- 解决计算能力短板的关键是将复杂运算分散到多个token或引入代码解释器工具,利用外部工具弥补模型的固有缺陷。
章节九:强化学习(RL)——让模型学会“思考”,提升推理能力
核心内容翻译
强化学习是大语言模型训练的第三阶段,也是当前技术前沿,属于后训练的延伸,核心目标是让模型学会推理和问题解决,超越监督微调的“人类模仿”,实现“自主思考”。该阶段通常由独立团队负责,是模型从“合格助手”升级为“优秀推理者”的关键。
一、强化学习的核心动机
监督微调的模型仅能模仿人类的答案,但人类的解题思路未必适合模型(模型的认知特性与人类不同),且人类无法穷尽所有问题的最优解法。强化学习让模型通过试错自主发现最优的解题token序列,即模型自己尝试多种解法,通过验证结果筛选出正确的解法,并不断强化,最终形成适合自身的推理策略。
二、强化学习的核心流程
强化学习基于可验证领域(如数学、代码,有明确的正确答案)展开,核心是“试错-筛选-强化”:
- 生成多种解法:针对一个问题,让模型生成数千甚至数百万个不同的token序列解法(因模型的随机性,每个解法都不同);
- 验证解法正确性:通过客观答案或工具(如代码解释器)验证解法的正确性,筛选出正确的解法;
- 强化正确解法:将正确的解法作为训练数据,继续训练模型,让模型更倾向于生成这类正确的token序列;
- 迭代优化:对海量问题重复上述过程,让模型逐步发现并强化适合自身的推理策略,提升问题解决的准确率。
三、强化学习的实际表现:涌现的“思考”能力
以DeepSeek R1模型为例,经过强化学习的模型会自发形成“思维链”,即在生成答案前,逐token生成推理过程,包括“重新评估步骤、从不同角度尝试、验证结果、补充其他解法”等,与人类的解题思考过程高度相似。这种“思考”能力是训练中的涌现特性,并非人类硬编码,而是模型通过试错自主发现的,能大幅提升模型在数学、代码等可验证领域的准确率。
四、强化学习与人类学习的类比
大语言模型的三段式训练与人类的学习过程高度相似:
- 预训练=阅读教材,积累基础知识;
- 监督微调=学习例题,模仿人类的解题方法;
- 强化学习=做练习题,通过试错自主发现最优解题策略。
核心结论
- 强化学习是大语言模型训练的前沿阶段,核心目标是让模型通过试错自主发现推理策略,超越监督微调的人类模仿,实现“思考”能力的涌现;
- 强化学习仅适用于有明确正确答案的可验证领域(数学、代码等),核心流程是“生成多种解法-验证正确性-强化正确解法”的迭代;
- 经过强化学习的模型会自发形成思维链,通过分步推理提升解题准确率,这种能力是训练中的涌现特性,并非人类硬编码;
- 大语言模型的三段式训练与人类学习过程高度契合,是“知识积累-模仿学习-试错优化”的逐步推进。
章节十:强化学习的延伸——人类反馈强化学习(RLHF)与未验证领域的挑战
核心内容翻译
前文的强化学习适用于可验证领域,但对于未验证领域(如创意写作、诗歌、笑话,无明确的正确答案),无法通过客观标准验证解法的优劣,因此诞生了人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF),这是OpenAI提出的解决未验证领域强化学习的核心方法。
一、RLHF的核心流程
RLHF的核心是用人类偏好训练奖励模型,替代客观的验证标准,让模型向“符合人类偏好”的方向优化,流程分为三步:
- 收集人类偏好数据:针对一个问题,让模型生成多个回复,由人类标注者对这些回复进行排序(而非打分,降低标注难度),确定最优、次优和最差回复;
- 训练奖励模型(Reward Model, RM):以“问题+回复”为输入,训练一个独立的奖励模型,输出该回复的人类偏好分数(0-1)。训练的目标是让奖励模型的打分结果与人类的排序一致,通过不断调整参数,让奖励模型成为“人类偏好的模拟器”;
- 基于奖励模型的强化学习:将奖励模型的分数作为强化学习的“奖励信号”,让模型生成回复,奖励模型为其打分,模型通过调整参数让生成的回复获得更高的分数,最终实现“符合人类偏好”的优化。
二、RLHF的优势与短板
优势
- 让强化学习能应用于无客观答案的未验证领域,拓展了强化学习的适用范围;
- 降低了人类标注的难度(排序比打分简单),同时让模型的优化方向更贴合人类需求;
- 能小幅提升模型的表现,让模型的回复更“符合人类审美”。
短板
- 奖励模型是人类偏好的有损模拟:奖励模型无法完全复刻人类的主观判断,存在偏差;
- 易被模型“钻空子”(对抗性示例):奖励模型是一个神经网络,模型在强化学习中会发现对抗性示例——即生成看似无意义但能让奖励模型给出高分的内容,导致模型的回复脱离实际需求;
- 训练无法持续迭代:若持续训练,模型会不断生成对抗性示例,导致效果大幅下降,因此RLHF仅能进行有限轮次的训练,属于“小幅微调”,而非真正的强化学习。
三、可验证领域vs未验证领域的强化学习对比
| 维度 | 可验证领域强化学习(如数学/代码) | 未验证领域强化学习(RLHF,如创意写作) |
|---|---|---|
| 验证标准 | 客观、明确的正确答案 | 人类主观偏好,无明确标准 |
| 奖励信号 | 答案的正确性 | 奖励模型的打分 |
| 训练可持续性 | 可无限迭代,效果持续提升 | 仅能有限迭代,易出现对抗性示例 |
| 模型能力提升 | 大幅提升,涌现思考能力 | 小幅提升,仅优化人类偏好贴合度 |
核心结论
- RLHF是为解决未验证领域的强化学习问题而提出的方法,核心是用人类偏好训练奖励模型,替代客观验证标准;
- RLHF的流程为“收集人类偏好排序-训练奖励模型-基于奖励模型强化学习”,降低了人类标注难度,拓展了强化学习的适用范围;
- RLHF存在显著短板,奖励模型是人类偏好的有损模拟,模型易生成对抗性示例钻空子,因此仅能进行有限轮次训练,属于“小幅微调”,并非真正的强化学习;
- 可验证领域的强化学习是模型推理能力提升的核心,能实现无限迭代和能力涌现,而RLHF仅能优化模型的人类偏好贴合度。
章节十一:大语言模型的未来发展趋势与资源获取
核心内容翻译
一、未来发展趋势
当前大语言模型仍处于早期发展阶段,未来的核心发展方向主要包括以下5点:
- 多模态化:从纯文本模型向文本+音频+图像+视频的多模态模型发展,核心原理是将音频、图像等转换为token,与文本token融合处理,实现“听、说、看、画”的一体化能力,目前已有早期落地成果;
- 智能体化(Agent):模型从“单次任务处理”向长期任务自主执行的智能体发展,能串联多个工具和任务,完成复杂的长期目标(如写一篇论文、做一个数据分析),并在过程中汇报进度、修正错误,未来会形成“人类监督-智能体执行”的人机协作模式;
- 渗透化与隐形化:模型将深度集成到各类工具和产品中(如办公软件、浏览器、手机系统),不再以独立的Chat界面存在,而是成为各类应用的“内置智能层”,实现无感知的智能辅助;
- 代行操作能力:模型将具备直接操作计算机的能力,能通过键盘、鼠标等外设执行操作(如打开软件、编辑文件、发送邮件),成为人类的“数字助手”;
- 测试时训练(Test-Time Training):突破当前“训练后参数固定”的限制,让模型在推理过程中实时学习、更新参数,解决上下文窗口有限的问题,适配超长期、多模态的复杂任务,这是当前的核心研究方向。
二、模型与行业资讯的获取资源
1. 行业资讯获取
- Ella Marina:大语言模型排行榜,基于人类对比评测对模型进行排名,可查看各模型的表现和开发机构,缺点是近期存在一定的“刷分”现象,需理性参考;
- AI News:综合型AI资讯周刊,内容全面,涵盖模型发布、技术研究、行业应用,部分由人类编辑,部分由模型生成,能快速掌握行业动态;
- X(原Twitter):AI领域的核心交流平台,众多研究者、开发者会在上面发布最新研究成果和模型动态,关注行业大咖可获取一手资讯。
2. 模型使用与部署资源
- 专有模型:直接访问开发机构的官网,如OpenAI(ChatGPT)、Google(Gemini)、Anthropic(Claude);
- 开源权重模型:通过推理平台使用,如Together AI(支持DeepSeek、Llama等主流开源模型)、Hyperbolic(专注于基础模型部署);
- 本地部署:对于小型模型(如10亿参数以下),可通过LLaMA Studio等工具在个人电脑(如MacBook)上部署,支持低精度量化,无需高端GPU。
核心结论
- 大语言模型的未来核心发展方向是多模态化、智能体化、渗透化、代行操作、测试时训练,核心目标是让模型更智能、更贴合人类的实际使用场景;
- 多模态化的底层原理仍是token化,将音频、图像等转换为模型可处理的token,与文本融合,无需改变模型的核心架构;
- 智能体化和代行操作将推动人机协作模式的变革,未来会形成“人类监督、智能体执行”的数字工作模式;
- 可通过Ella Marina、AI News、X获取行业资讯,通过官方网站、推理平台、本地部署工具等多种方式使用大语言模型,开源权重模型的普及让普通用户也能接触到前沿模型。
章节十二:大语言模型的本质与使用原则
核心内容翻译
一、大语言模型的本质
用户与ChatGPT等模型交互时,背后的核心过程是:用户的查询被token化后,按对话编码规则生成token序列,模型基于训练好的参数,逐token生成符合人类对话规律的回复。模型的回复并非“思考”的结果,而是:
- 基础模型/监督微调模型:对人类标注者的统计模拟,即模型的回复是对监督微调数据中人类标注者答案的概率性生成,相当于“模拟人类标注者根据标注指南编写回复”;
- 强化学习模型:自主发现的推理策略与人类偏好的结合,模型在可验证领域通过试错形成了自身的推理思维链,回复是思维链的结果,而非单纯的人类模仿,这是模型最接近“思考”的状态。
需要明确的是,模型始终是静态的数学函数,无自主意识、无记忆、无情感,其所有表现都是基于token序列的统计计算,与人类的思考有本质区别。
二、模型的能力边界:“瑞士奶酪式”能力
大语言模型的能力呈现**“瑞士奶酪式”特征**——即在大部分领域表现卓越(如文本生成、知识问答、代码编写),但在某些细节上存在随机的、无规律的短板(如简单的数字比较、字符计数、拼写细节),这些短板是由模型的底层设计(token化、单token计算能力有限)决定的,无法完全消除。
三、模型的核心使用原则
- 当作工具而非“专家”:将模型作为工作的辅助工具,用于灵感激发、初稿生成、任务拆解,而非直接依赖其结果;
- 验证所有结果:对模型的输出进行严格的事实核查和逻辑验证,尤其是涉及数据、公式、事实的内容,利用工具(如网络搜索、代码解释器)验证准确性;
- 善用上下文和工具:将关键信息放入上下文窗口,让模型基于外部信息处理任务;对计算、计数等短板任务,强制模型使用代码解释器等工具;
- 分散复杂任务到多个步骤:让模型将复杂任务拆解为多个简单步骤,逐步骤生成结果,避免让模型在单个token中完成复杂运算;
- 选择合适的模型:简单的知识问答、文本生成使用监督微调模型(如GPT-4o)即可;复杂的数学、代码推理使用强化学习模型(如DeepSeek R1、GPT-4o Mini High)。
核心结论
- 大语言模型的本质是基于token序列的统计计算函数,无自主意识和思考能力,监督微调模型的回复是对人类标注者的统计模拟,强化学习模型的“思考”是试错中涌现的token序列推理策略;
- 模型的能力呈现**“瑞士奶酪式”特征**,有显著优势也有随机的底层短板,无法完全消除;
- 使用模型的核心原则是**“工具化思维”**:验证结果、善用上下文和工具、拆解复杂任务、选择合适的模型,始终对模型的输出负责。
大语言模型(LLM)核心技术思维导图总结
1 | |