Deep Dive into LLMs like ChatGPT - 8

豆包AI总结出的笔记

大语言模型(LLM)核心技术全解析

章节一:大语言模型整体介绍与训练总流程

核心内容翻译

本视频旨在为普通观众全面介绍ChatGPT这类大语言模型,搭建理解该工具的思维框架——它在某些方面表现卓越,在另一些方面却不尽如人意,同时还存在诸多需要注意的“技术短板”。视频将拆解大语言模型的完整构建流程,兼顾认知心理学层面的应用启示,且全程保持内容的通俗性,让非专业观众也能理解。

大语言模型的训练分为预训练后训练(含监督微调)和强化学习三个核心阶段,按顺序逐步推进,各阶段的计算成本、训练目标和数据类型差异显著,最终将原始的“互联网文本模拟器”打磨为能与人交互的智能助手。

核心结论

  1. 大语言模型是一把“双刃剑”,有显著优势也存在技术短板,需理性看待其能力边界;
  2. 模型训练遵循预训练-后训练-强化学习的三段式流程,各阶段分工明确、循序渐进;
  3. 本教程将从技术构建、认知特性、实际应用等维度解析大语言模型,内容兼顾专业性与通俗性。

章节二:预训练阶段——互联网文本的处理与token化

核心内容翻译

预训练是大语言模型的基础阶段,核心目标是让模型从互联网文本中学习语言规律和世界知识,分为数据采集与处理文本token化两个关键步骤。

  1. 数据采集与处理:主流模型的训练数据均基于类似Hugging Face的FineWeb数据集,原始数据主要来自Common Crawl(自2007年起爬取互联网,2024年已索引27亿个网页)。原始数据需经过多轮过滤:URL过滤(剔除恶意、垃圾、成人内容等网站)、文本提取(从HTML中剥离纯文本,去除导航、代码等冗余信息)、语言过滤(如FineWeb保留65%以上为英文的网页,决定模型的语言能力偏向)、去重和PII移除(检测并删除地址、社保号等个人身份信息),最终FineWeb数据集仅占44TB磁盘空间,是经过高度筛选的高质量文本。
  2. 文本token化:模型无法直接处理文本,需将其转换为一维符号序列。过程为:先将文本UTF-8编码为二进制位(0/1),再组合为字节(8位,256种可能),最后通过字节对编码(BPE) 算法合并高频字节组合,生成更大的词汇表。GPT-4的词汇表包含100277个token(符号),每个token是文本的最小单位,可对应单个字符、单词或短语,且token化区分大小写、空格等细节(如“Hello World”是3个token,“hello world”是2个token)。FineWeb数据集最终被转换为约15万亿个token的序列,成为模型训练的原始输入。

核心结论

  1. 预训练的核心是从高质量、多样化的互联网文本中学习语言规律,数据过滤是保证模型质量的关键,过滤规则决定模型的能力偏向(如语言、内容安全性);
  2. token化是文本向模型可处理格式的转换过程,BPE算法是主流方案,通过平衡词汇表大小和序列长度提升训练效率,token是模型处理文本的最小单位;
  3. 预训练数据经多轮处理后体量大幅缩减,最终以token序列形式输入模型,GPT-4等主流模型的token化有严格的格式规则(大小写、空格敏感)。

章节三:预训练阶段——神经网络训练与推理的核心逻辑

核心内容翻译

  1. 神经网络训练:核心目标是让模型学习token序列的统计关联,即根据前文token预测下一个token。训练时从token序列中截取固定长度的窗口(如8000个token,称为模型的“上下文长度”),将前N个token作为上下文输入,让模型预测第N+1个token。模型初始参数是随机的,输出为词汇表中所有token的出现概率,通过损失函数计算预测值与真实值的误差,不断调整参数,让正确token的概率升高、错误token的概率降低。这个过程会在海量token窗口上批量、并行执行,本质是让模型的预测结果匹配训练数据的统计规律。
  2. 神经网络结构:主流模型采用Transformer架构,由注意力模块、多层感知机(MLP)等组成,包含数亿至万亿级的参数。参数可理解为模型的“知识储备”,训练过程就是调整这些参数以匹配数据规律。Transformer的输入是token序列,先将token转换为嵌入向量,再经过多层数学运算(层归一化、矩阵乘法、SoftMax等),最终输出下一个token的概率分布。需要注意的是,模型的神经元是简单的数学表达式,无记忆能力,与人类大脑的神经元有本质区别。
  3. 模型推理:推理是模型利用训练好的参数生成新文本的过程,核心是逐token生成。先输入初始前缀token,模型输出下一个token的概率分布,通过随机采样选择一个token并追加到序列中,再将新的序列作为输入,重复上述过程,直至生成指定长度的文本。模型是随机化系统,即使输入相同的前缀,每次采样的结果也可能不同,生成的文本是训练数据的“统计重构”,而非简单复制。

核心结论

  1. 预训练的核心任务是预测下一个token,训练过程是通过调整模型参数最小化预测误差,让模型学习token序列的统计规律;
  2. Transformer是大语言模型的主流架构,由多个模块化的数学运算组成,参数是模型的核心知识载体,模型无内置记忆,是纯静态的数学函数;
  3. 模型推理是逐token的随机采样过程,输入相同前缀可能生成不同结果,生成的文本是训练数据的统计重构,而非逐字复制。

章节四:预训练的实例与计算资源需求

核心内容翻译

以OpenAI的GPT-2为例解析预训练的实际特征:GPT-2于2019年发布,是首个具备现代大语言模型核心特征的模型,采用Transformer架构,含16亿参数,最大上下文长度1024个token,训练数据约1000亿个token。2019年训练GPT-2的成本约4万美元,而2025年借助优化的数据集、更高效的硬件和软件,成本可降至约100美元,仅需1天时间。

模型训练对计算资源要求极高,无法在普通笔记本电脑上运行,需依赖云端的GPU集群。以训练GPT-2的A100节点为例,单个节点含8张H100 GPU,按3美元/张/小时的价格租赁,而大型科技公司会搭建包含数万台GPU的超算中心(如马斯克的xAI拥有10万个GPU)。GPU的核心优势是并行计算能力,能高效处理模型训练中的矩阵乘法等密集型运算,这也是英伟达市值飙升的核心原因。

训练过程中需关注损失值(Loss):损失值是衡量模型预测效果的核心指标,值越低表示预测越准确,训练过程中损失值应持续下降。训练初期模型生成的文本是无意义的乱码,随着训练步数增加,文本的连贯性会逐步提升,当训练完成后,模型能生成符合语言规律的文本。

核心结论

  1. GPT-2是现代大语言模型的里程碑,其核心架构和训练逻辑被后续模型沿用,仅在参数规模、上下文长度、训练数据量上持续扩大;
  2. 大语言模型训练的计算成本随技术发展快速下降,核心原因是数据集质量提升、GPU硬件性能增强、训练软件优化;
  3. GPU是模型训练的核心硬件,并行计算能力是关键,大型科技公司的GPU集群是训练超大模型的基础,损失值是监控训练效果的核心指标。

章节五:基础模型(Base Model)的特性与实际表现

核心内容翻译

预训练完成后得到的模型称为基础模型(Base Model),本质是“互联网文本token模拟器”,并非可直接交互的助手,其核心特性和表现如下:

  1. 核心能力:基础模型仅具备文本补全能力,无问答、指令遵循等功能,对输入的处理本质是“高成本的自动补全”,例如输入“2+2=”,模型不会直接给出答案,而是根据互联网文本的统计规律补全后续内容;
  2. 随机性:模型是随机化系统,相同输入会生成不同结果,因为每次都会从概率分布中随机采样下一个token;
  3. 知识储备:模型的参数是对互联网文本的有损压缩,存储了世界知识,但知识是模糊的、概率性的,高频信息的准确率更高,低频信息易出错;
  4. 记忆与复述:模型对高频、高质量的文本(如维基百科)有极强的记忆能力,可能会逐字复述训练数据中的内容(称为“文本回吐”),这是因为这类文本在训练中被多次采样,模型对其token序列的预测误差极低;
  5. 知识截止与幻觉:模型的训练数据有知识截止时间(如Llama 3的知识截止到2023年底),对截止时间后的信息(如2024年大选)会进行幻觉生成,即基于已有知识进行猜测,生成看似合理但不实的内容;
  6. 上下文学习能力:基础模型具备少样本学习能力,通过在输入中加入示例(如“苹果-사과、香蕉-바나나、老师-?”),模型能学习示例中的规律并完成任务,无需重新训练;
  7. 通过提示词构建助手:可通过精心设计的提示词让基础模型模拟助手,例如在输入中加入“人类-助手”的对话示例,模型会根据示例的统计规律继续对话,实现简单的问答功能。

核心结论

  1. 基础模型是预训练的产物,本质是互联网文本补全工具,无原生的问答和指令遵循能力,不能直接作为智能助手使用;
  2. 基础模型的知识是对互联网的有损概率性压缩,高频信息准确、低频信息易出错,存在文本回吐、知识截止和幻觉等问题;
  3. 基础模型具备上下文少样本学习能力,可通过精心设计的提示词模拟助手功能,无需重新训练参数。

章节六:后训练阶段——监督微调(SFT)将基础模型转为助手

核心内容翻译

后训练的核心目标是将基础模型打磨为能遵循人类指令的助手模型,核心步骤是监督微调(Supervised Fine-Tuning, SFT),该阶段的计算成本远低于预训练(预训练需数月,监督微调仅需数小时)。

  1. 核心逻辑:监督微调的算法与预训练一致(仍为预测下一个token),唯一的区别是训练数据从互联网文本替换为人类标注的对话数据。通过让模型学习人类的对话规律,使其从“文本补全器”转变为“对话助手”。
  2. 对话数据的构建:对话数据由人类标注者创建,标注者需根据企业制定的标注指南(通常数百页,要求助手“有用、真实、无害”),为各类人类指令编写理想的回复。早期数据完全由人类手动创建,现代则结合大语言模型辅助生成(模型先生成回复,人类再编辑优化),形成数百万条涵盖多领域、多轮次的对话数据集(如UltraChat)。
  3. 对话的token化:对话是结构化数据,需通过特殊token将其转换为一维token序列,例如加入<|im_start|>(对话开始)、<|user|>(用户)、<|assistant|>(助手)、<|im_end|>(对话结束)等特殊token,让模型识别对话的角色和结构。不同企业的对话编码规则略有差异,但核心都是将结构化对话转为模型可处理的token序列。
  4. 推理时的对话处理:用户与助手交互时,系统会将历史对话按编码规则转换为token序列,模型基于该序列预测助手的下一个回复token,实现多轮对话。例如用户输入“2+2=”,系统会构建<|im_start|><|user|>2+2=<|assistant|>的token序列,模型基于此生成回复。

核心结论

  1. 监督微调是后训练的核心步骤,通过替换训练数据为人类标注对话,让基础模型从文本补全器转为对话助手,算法与预训练一致,计算成本极低;
  2. 对话数据的质量决定助手模型的表现,由人类标注者根据“有用、真实、无害”的标注指南创建,现代采用“模型生成+人类编辑”的混合方式提升效率;
  3. 需通过特殊token将结构化对话转换为一维token序列,让模型识别角色和对话结构,这是模型实现多轮对话的基础。

章节七:大语言模型的认知特性——幻觉及缓解方法

核心内容翻译

幻觉是大语言模型的核心问题,指模型生成看似合理但与事实不符的内容,其产生的根本原因是:模型在训练中学习到“对问题的回复需呈现自信的语气”,但当面对未知问题时,不会输出“我不知道”,而是基于统计规律生成最可能的内容,从而产生幻觉。

幻觉的两大缓解方法

  1. 基于模型自知的拒绝回复:通过实证探测确定模型的知识边界,即向模型提出大量问题,对比其回答与正确答案,判断模型是否掌握该知识。对于模型未知的问题,在训练数据中加入“我不知道”的回复示例,让模型学习“当自身不确定时,拒绝给出答案”。例如Meta在训练Llama 3时,通过该方法让模型学会识别自身的知识盲区,大幅降低幻觉概率。
  2. 引入工具增强事实性:让模型在生成答案前,通过工具调用获取真实信息,替代单纯的参数内知识回忆。核心是为模型引入特殊工具token(如<|search_start|><|search_end|>),当模型判断自身无法回答问题时,生成工具token触发网络搜索,搜索结果会被加入模型的上下文窗口(相当于模型的“工作记忆”),模型基于搜索结果生成答案,从而保证事实性。

核心补充:参数知识与上下文知识的区别

  • 参数内知识:是模型预训练时存储在参数中的知识,相当于人类的“长期记忆”,是对互联网的模糊回忆,准确率随信息频率降低而下降;
  • 上下文窗口知识:是模型推理时输入的外部信息(如搜索结果、用户提供的文本),相当于人类的“工作记忆”,模型可直接访问,准确率极高。

实际应用中,若需模型处理特定文本(如总结某篇文章),直接将文本粘贴到提示词中,让模型基于上下文窗口处理,效果远优于让模型依靠参数内知识回忆。

核心结论

  1. 幻觉的本质是模型为遵循训练中的回复规律,对未知问题进行概率性猜测,而非主动欺骗,是模型的固有认知特性;
  2. 缓解幻觉的核心方法分为两类:让模型识别自身知识盲区并拒绝回复引入工具调用获取外部真实信息,后者能从根本上提升答案的事实性;
  3. 模型的知识分为参数内长期记忆上下文窗口工作记忆,实际应用中应尽量将关键信息放入上下文窗口,提升模型处理的准确性。

章节八:大语言模型的认知特性——自我认知与数学/计数能力短板

核心内容翻译

一、自我认知特性

模型无原生的自我认知,其对“自身身份”的回答(如“我是ChatGPT,由OpenAI开发”)并非模型的自主认知,而是通过两种方式“硬编码”的:

  1. 在监督微调数据中加入身份问答示例:如在训练数据中加入“你是谁?-我是Llama 3,由Meta开发”等对话,让模型学习固定的身份回复;
  2. 在对话开始时加入系统提示词:在模型的上下文窗口中,隐藏加入包含模型身份、知识截止时间的系统提示词,模型基于该提示词生成身份相关回复。

若未进行上述硬编码,模型对身份问题的回答会是随机的幻觉内容,因为其参数中未存储关于“自身”的知识。

二、数学与计数能力短板

模型的数学和计数能力存在显著短板,核心原因是:模型的每一步token生成仅能进行有限的计算(Transformer的层数固定,如100层),无法在单个token生成中完成复杂的运算。若要求模型在单个token中给出数学题答案,其会因计算能力不足而出错;而计数能力差则是因为模型仅能识别token,无法直接识别字符,例如“strawberry”是一个token,模型无法直接统计其中的字母数量。

能力短板的解决方法

  1. 分散计算到多个token:让模型将复杂运算拆解为多个步骤,逐token生成中间计算结果,例如解“3个苹果+2个橙子共13美元,橙子2美元/个,求苹果单价”时,先计算橙子总价,再计算苹果总价,最后计算单价,通过多个token的分步计算提升准确率;
  2. 引入代码解释器工具:让模型生成代码并调用Python解释器执行,将数学计算、计数等任务交给代码完成,模型仅负责生成代码和解读结果,从根本上解决计算能力不足的问题。

核心结论

  1. 大语言模型无原生自我认知,其身份回答是通过监督微调数据或系统提示词硬编码的,并非自主意识的体现;
  2. 模型数学和计数能力差的核心原因是单token生成的计算能力有限无法直接识别字符(仅识别token),是由模型的底层设计决定的;
  3. 解决计算能力短板的关键是将复杂运算分散到多个token引入代码解释器工具,利用外部工具弥补模型的固有缺陷。

章节九:强化学习(RL)——让模型学会“思考”,提升推理能力

核心内容翻译

强化学习是大语言模型训练的第三阶段,也是当前技术前沿,属于后训练的延伸,核心目标是让模型学会推理和问题解决,超越监督微调的“人类模仿”,实现“自主思考”。该阶段通常由独立团队负责,是模型从“合格助手”升级为“优秀推理者”的关键。

一、强化学习的核心动机

监督微调的模型仅能模仿人类的答案,但人类的解题思路未必适合模型(模型的认知特性与人类不同),且人类无法穷尽所有问题的最优解法。强化学习让模型通过试错自主发现最优的解题token序列,即模型自己尝试多种解法,通过验证结果筛选出正确的解法,并不断强化,最终形成适合自身的推理策略。

二、强化学习的核心流程

强化学习基于可验证领域(如数学、代码,有明确的正确答案)展开,核心是“试错-筛选-强化”:

  1. 生成多种解法:针对一个问题,让模型生成数千甚至数百万个不同的token序列解法(因模型的随机性,每个解法都不同);
  2. 验证解法正确性:通过客观答案或工具(如代码解释器)验证解法的正确性,筛选出正确的解法;
  3. 强化正确解法:将正确的解法作为训练数据,继续训练模型,让模型更倾向于生成这类正确的token序列;
  4. 迭代优化:对海量问题重复上述过程,让模型逐步发现并强化适合自身的推理策略,提升问题解决的准确率。

三、强化学习的实际表现:涌现的“思考”能力

以DeepSeek R1模型为例,经过强化学习的模型会自发形成“思维链”,即在生成答案前,逐token生成推理过程,包括“重新评估步骤、从不同角度尝试、验证结果、补充其他解法”等,与人类的解题思考过程高度相似。这种“思考”能力是训练中的涌现特性,并非人类硬编码,而是模型通过试错自主发现的,能大幅提升模型在数学、代码等可验证领域的准确率。

四、强化学习与人类学习的类比

大语言模型的三段式训练与人类的学习过程高度相似:

  1. 预训练=阅读教材,积累基础知识;
  2. 监督微调=学习例题,模仿人类的解题方法;
  3. 强化学习=做练习题,通过试错自主发现最优解题策略。

核心结论

  1. 强化学习是大语言模型训练的前沿阶段,核心目标是让模型通过试错自主发现推理策略,超越监督微调的人类模仿,实现“思考”能力的涌现;
  2. 强化学习仅适用于有明确正确答案的可验证领域(数学、代码等),核心流程是“生成多种解法-验证正确性-强化正确解法”的迭代;
  3. 经过强化学习的模型会自发形成思维链,通过分步推理提升解题准确率,这种能力是训练中的涌现特性,并非人类硬编码;
  4. 大语言模型的三段式训练与人类学习过程高度契合,是“知识积累-模仿学习-试错优化”的逐步推进。

章节十:强化学习的延伸——人类反馈强化学习(RLHF)与未验证领域的挑战

核心内容翻译

前文的强化学习适用于可验证领域,但对于未验证领域(如创意写作、诗歌、笑话,无明确的正确答案),无法通过客观标准验证解法的优劣,因此诞生了人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF),这是OpenAI提出的解决未验证领域强化学习的核心方法。

一、RLHF的核心流程

RLHF的核心是用人类偏好训练奖励模型,替代客观的验证标准,让模型向“符合人类偏好”的方向优化,流程分为三步:

  1. 收集人类偏好数据:针对一个问题,让模型生成多个回复,由人类标注者对这些回复进行排序(而非打分,降低标注难度),确定最优、次优和最差回复;
  2. 训练奖励模型(Reward Model, RM):以“问题+回复”为输入,训练一个独立的奖励模型,输出该回复的人类偏好分数(0-1)。训练的目标是让奖励模型的打分结果与人类的排序一致,通过不断调整参数,让奖励模型成为“人类偏好的模拟器”;
  3. 基于奖励模型的强化学习:将奖励模型的分数作为强化学习的“奖励信号”,让模型生成回复,奖励模型为其打分,模型通过调整参数让生成的回复获得更高的分数,最终实现“符合人类偏好”的优化。

二、RLHF的优势与短板

优势

  1. 让强化学习能应用于无客观答案的未验证领域,拓展了强化学习的适用范围;
  2. 降低了人类标注的难度(排序比打分简单),同时让模型的优化方向更贴合人类需求;
  3. 能小幅提升模型的表现,让模型的回复更“符合人类审美”。

短板

  1. 奖励模型是人类偏好的有损模拟:奖励模型无法完全复刻人类的主观判断,存在偏差;
  2. 易被模型“钻空子”(对抗性示例):奖励模型是一个神经网络,模型在强化学习中会发现对抗性示例——即生成看似无意义但能让奖励模型给出高分的内容,导致模型的回复脱离实际需求;
  3. 训练无法持续迭代:若持续训练,模型会不断生成对抗性示例,导致效果大幅下降,因此RLHF仅能进行有限轮次的训练,属于“小幅微调”,而非真正的强化学习。

三、可验证领域vs未验证领域的强化学习对比

维度 可验证领域强化学习(如数学/代码) 未验证领域强化学习(RLHF,如创意写作)
验证标准 客观、明确的正确答案 人类主观偏好,无明确标准
奖励信号 答案的正确性 奖励模型的打分
训练可持续性 可无限迭代,效果持续提升 仅能有限迭代,易出现对抗性示例
模型能力提升 大幅提升,涌现思考能力 小幅提升,仅优化人类偏好贴合度

核心结论

  1. RLHF是为解决未验证领域的强化学习问题而提出的方法,核心是用人类偏好训练奖励模型,替代客观验证标准
  2. RLHF的流程为“收集人类偏好排序-训练奖励模型-基于奖励模型强化学习”,降低了人类标注难度,拓展了强化学习的适用范围;
  3. RLHF存在显著短板,奖励模型是人类偏好的有损模拟,模型易生成对抗性示例钻空子,因此仅能进行有限轮次训练,属于“小幅微调”,并非真正的强化学习;
  4. 可验证领域的强化学习是模型推理能力提升的核心,能实现无限迭代和能力涌现,而RLHF仅能优化模型的人类偏好贴合度。

章节十一:大语言模型的未来发展趋势与资源获取

核心内容翻译

一、未来发展趋势

当前大语言模型仍处于早期发展阶段,未来的核心发展方向主要包括以下5点:

  1. 多模态化:从纯文本模型向文本+音频+图像+视频的多模态模型发展,核心原理是将音频、图像等转换为token,与文本token融合处理,实现“听、说、看、画”的一体化能力,目前已有早期落地成果;
  2. 智能体化(Agent):模型从“单次任务处理”向长期任务自主执行的智能体发展,能串联多个工具和任务,完成复杂的长期目标(如写一篇论文、做一个数据分析),并在过程中汇报进度、修正错误,未来会形成“人类监督-智能体执行”的人机协作模式;
  3. 渗透化与隐形化:模型将深度集成到各类工具和产品中(如办公软件、浏览器、手机系统),不再以独立的Chat界面存在,而是成为各类应用的“内置智能层”,实现无感知的智能辅助;
  4. 代行操作能力:模型将具备直接操作计算机的能力,能通过键盘、鼠标等外设执行操作(如打开软件、编辑文件、发送邮件),成为人类的“数字助手”;
  5. 测试时训练(Test-Time Training):突破当前“训练后参数固定”的限制,让模型在推理过程中实时学习、更新参数,解决上下文窗口有限的问题,适配超长期、多模态的复杂任务,这是当前的核心研究方向。

二、模型与行业资讯的获取资源

1. 行业资讯获取

  • Ella Marina:大语言模型排行榜,基于人类对比评测对模型进行排名,可查看各模型的表现和开发机构,缺点是近期存在一定的“刷分”现象,需理性参考;
  • AI News:综合型AI资讯周刊,内容全面,涵盖模型发布、技术研究、行业应用,部分由人类编辑,部分由模型生成,能快速掌握行业动态;
  • X(原Twitter):AI领域的核心交流平台,众多研究者、开发者会在上面发布最新研究成果和模型动态,关注行业大咖可获取一手资讯。

2. 模型使用与部署资源

  • 专有模型:直接访问开发机构的官网,如OpenAI(ChatGPT)、Google(Gemini)、Anthropic(Claude);
  • 开源权重模型:通过推理平台使用,如Together AI(支持DeepSeek、Llama等主流开源模型)、Hyperbolic(专注于基础模型部署);
  • 本地部署:对于小型模型(如10亿参数以下),可通过LLaMA Studio等工具在个人电脑(如MacBook)上部署,支持低精度量化,无需高端GPU。

核心结论

  1. 大语言模型的未来核心发展方向是多模态化、智能体化、渗透化、代行操作、测试时训练,核心目标是让模型更智能、更贴合人类的实际使用场景;
  2. 多模态化的底层原理仍是token化,将音频、图像等转换为模型可处理的token,与文本融合,无需改变模型的核心架构;
  3. 智能体化和代行操作将推动人机协作模式的变革,未来会形成“人类监督、智能体执行”的数字工作模式;
  4. 可通过Ella Marina、AI News、X获取行业资讯,通过官方网站、推理平台、本地部署工具等多种方式使用大语言模型,开源权重模型的普及让普通用户也能接触到前沿模型。

章节十二:大语言模型的本质与使用原则

核心内容翻译

一、大语言模型的本质

用户与ChatGPT等模型交互时,背后的核心过程是:用户的查询被token化后,按对话编码规则生成token序列,模型基于训练好的参数,逐token生成符合人类对话规律的回复。模型的回复并非“思考”的结果,而是:

  1. 基础模型/监督微调模型:对人类标注者的统计模拟,即模型的回复是对监督微调数据中人类标注者答案的概率性生成,相当于“模拟人类标注者根据标注指南编写回复”;
  2. 强化学习模型:自主发现的推理策略与人类偏好的结合,模型在可验证领域通过试错形成了自身的推理思维链,回复是思维链的结果,而非单纯的人类模仿,这是模型最接近“思考”的状态。

需要明确的是,模型始终是静态的数学函数,无自主意识、无记忆、无情感,其所有表现都是基于token序列的统计计算,与人类的思考有本质区别。

二、模型的能力边界:“瑞士奶酪式”能力

大语言模型的能力呈现**“瑞士奶酪式”特征**——即在大部分领域表现卓越(如文本生成、知识问答、代码编写),但在某些细节上存在随机的、无规律的短板(如简单的数字比较、字符计数、拼写细节),这些短板是由模型的底层设计(token化、单token计算能力有限)决定的,无法完全消除。

三、模型的核心使用原则

  1. 当作工具而非“专家”:将模型作为工作的辅助工具,用于灵感激发、初稿生成、任务拆解,而非直接依赖其结果;
  2. 验证所有结果:对模型的输出进行严格的事实核查和逻辑验证,尤其是涉及数据、公式、事实的内容,利用工具(如网络搜索、代码解释器)验证准确性;
  3. 善用上下文和工具:将关键信息放入上下文窗口,让模型基于外部信息处理任务;对计算、计数等短板任务,强制模型使用代码解释器等工具;
  4. 分散复杂任务到多个步骤:让模型将复杂任务拆解为多个简单步骤,逐步骤生成结果,避免让模型在单个token中完成复杂运算;
  5. 选择合适的模型:简单的知识问答、文本生成使用监督微调模型(如GPT-4o)即可;复杂的数学、代码推理使用强化学习模型(如DeepSeek R1、GPT-4o Mini High)。

核心结论

  1. 大语言模型的本质是基于token序列的统计计算函数,无自主意识和思考能力,监督微调模型的回复是对人类标注者的统计模拟,强化学习模型的“思考”是试错中涌现的token序列推理策略;
  2. 模型的能力呈现**“瑞士奶酪式”特征**,有显著优势也有随机的底层短板,无法完全消除;
  3. 使用模型的核心原则是**“工具化思维”**:验证结果、善用上下文和工具、拆解复杂任务、选择合适的模型,始终对模型的输出负责。

大语言模型(LLM)核心技术思维导图总结

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
## **训练总流程**
- 预训练:互联网文本→token序列→基础模型(文本补全器)
- 后训练:监督微调(SFT)→助手模型(遵循人类指令)
- 强化学习(RL):可验证领域→推理能力提升;RLHF→未验证领域人类偏好优化
## **预训练核心**
- 数据处理:Common Crawl→多轮过滤(URL/文本/语言/PII)→高质量数据集
- token化:UTF-8编码→字节→BPE算法→token序列(GPT-4:100277个token)
- 模型训练:预测下一个token→调整参数→匹配统计规律;Transformer架构为核心
- 模型推理:逐token随机采样→文本生成(统计重构,非复制)
## **基础模型特性**
- 核心能力:仅文本补全,无原生问答能力
- 关键问题:知识有损压缩、文本回吐、知识截止、幻觉
- 重要能力:上下文少样本学习、提示词模拟助手
## **监督微调(SFT)**
- 核心:替换训练数据为人类标注对话,算法与预训练一致
- 对话数据:人类标注(模型辅助)+标注指南(有用/真实/无害)
- 对话编码:特殊token→结构化对话→一维token序列
- 推理:历史对话编码→模型生成助手回复
## **模型认知特性**
- 幻觉:原因(概率性猜测);缓解(自知拒绝、工具调用)
- 自我认知:无原生认知,硬编码(数据示例/系统提示词)
- 计算短板:原因(单token计算有限、仅识别token);解决(分步token、代码解释器)
- 知识类型:参数内(长期记忆,模糊);上下文(工作记忆,准确)
## **强化学习(RL)**
- 核心动机:超越人类模仿,让模型自主发现推理策略
- 可验证领域RL:试错-筛选-强化→思维链涌现→推理能力提升
- RLHF(未验证领域):人类排序→奖励模型→强化学习;小幅优化,易出对抗示例
- 与人类学习类比:预训练=读教材;SFT=学例题;RL=做习题
## **未来发展趋势**
- 多模态化:文本+音频+图像→统一token化处理
- 智能体化:长期任务自主执行,人机协作(人类监督)
- 渗透化:集成到各类工具,无感知辅助
- 代行操作:直接控制计算机外设
- 测试时训练:推理中实时更新参数,突破上下文限制
## **使用与资源**
- 核心原则:工具化思维、验证结果、善用工具/上下文、拆解任务
- 资讯资源:Ella Marina(排行榜)、AI News(周刊)、X(一手资讯)
- 模型资源:专有模型(官网)、开源模型(Together AI)、本地部署(LLaMA Studio)
## **模型本质**
- 底层:静态数学函数,无自主意识、记忆、情感
- 回复本质:SFT模型=人类标注者统计模拟;RL模型=自主推理策略+人类偏好
- 能力特征:瑞士奶酪式(优势显著,存在随机底层短板)