从零搭建你自己的 LLM 五阶段:GPT 和 Claude 背后真实的流水线

从零搭建你自己的 LLM 五阶段:GPT 和 Claude 背后真实的流水线

作者: @0xCodez 发布: 2026-05-25 原文: https://x.com/0xCodez/status/2058911661973454915

封面

我把 large language model 是怎么造出来的拆开了——ChatGPT、Claude、Gemini 背后那整条流水线——然后压成了一张图。

收藏。存下来。 看完之后你会清楚地知道:从一堆原始互联网文本走到一个能像助理一样回答你的模型,那条路一共五个阶段。

关注我的 Substack 拿新鲜的 AI alpha:movez.substack.com

这不是夸张。大多数人以为造一个 LLM 是关于架构的事。这篇文章的核心结论是:架构是最不重要的那部分。


大家都信的那个谎言

随便问一个人 Claude 这种模型是怎么搭出来的,他们会说"transformer"。好像秘密在那个神经网络设计里。

不在。Transformer 架构早就高度标准化、自由公开。每个主要实验室用的基本都是同一套零件。如果架构是护城河,每个人都该有 GPT-4。

下面这句话能把整件事重新定位:实际工程里,是 data、evaluation、systems 在决定一个模型成不成——而不是架构上的小动作。最好的模型不只是被训出来的。它们是被工程出来的(engineered)。

所以这份指南是围绕真正重要的东西来组织的。五个阶段。架构只是 Stage 1 里的一个脚注。其他四个阶段才是真正的模型胜负之地。


01. Pretraining —— 教会模型语言本身

一切始于一个看起来骗人地简单的目标:预测下一个词。 这就是 autoregressive language modeling。给一段词序列,模型学习接下来会出现什么的概率分布。

把这个动作放到足够多的文本上去做,模型就会吸收语法、事实和推理模式——不是因为有人专门教它,而是因为要把"下一个词"预测得好就不得不掌握这些。

Tokenization 是第一步

模型看到文本之前,文本会先被切成 token。 标准方法是 Byte-Pair Encoding (BPE),它的逻辑会塑造下游的一切。

架构 —— 那个最不重要的部分

模型是个 transformer。这一节本质上就这么一句话,而这正是重点。 你不会因为发明了一个更聪明的 transformer 就赢。你赢,是赢在另外四个阶段。

讲座用 scaling 曲线证明这一点:transformer 相对 LSTM 只是常数和斜率更好——选标准工具,往下走就完事。


02. Data —— 模型真正被赢下的地方

如果架构最不重要,那 data 就是最重要的。这是把好模型和平庸模型分开的阶段,也是大多数人最低估的那个。

整条流水线从 Common Crawl 开始——一份大到要用 PB 计的公网爬取数据:2500 亿页面,超过 100 万 GB。但原始网页数据脏得不行。

把它变成训练材料是一道残酷的多步过滤。

处理流水线是这样的:

值得烙进脑子的那句话:data quality trumps quantity(质量胜过数量)。把数据收集这件事做好,是实战 LLM 工作里的关键部分——也是被守得最紧的秘密。

把数据收集这件事做好,几乎就是实用 LLM 的关键所在——也是这个领域里看护得最严的秘密。

闭源数据集的体量碾压开源:LLaMA 3 训了 15 万亿 token;GPT-4 估计是 13 万亿。


03. Scaling laws —— 把算力花在最优处

你有 10000 张 GPU,可以用一个月。该训什么模型?更大,还是用更多数据训?瞎猜会浪费几百万。 Scaling laws 让这件事可预测地有答案。

经验性发现:更多数据 + 更大模型可靠地带来更好性能,而且 在训练之前你就可以根据模型规模和数据量预测它的性能

现代流水线的做法是:在小模型上调超参数,然后顺着曲线外推到那个唯一的大规模最终训练。

著名的 Chinchilla 答案:大约 20 token 训练数据 / 参数 是 compute-optimal。但这只算了训练成本。

一旦你把跑模型的成本(inference)也算进来,实用比例会陡升,超过 150 token / 参数。你训一个更小的模型但喂它远多得多的数据——因为你要为它跑几百万次买单。

还有那个 meta-lesson,那条 "bitter lesson":不要过度复杂化。做简单的事,把它 scale 上去。从长期看,唯一重要的事情是利用算力。


04. Post-training —— 把一个预测器变成一个助理

预训练之后你拿到的东西很强大,但用来 chat 完全没用。它会续写文本,但它不知道自己应该 回答 你。

问它一个问题,它可能用三个新问题回应你——这是非常合理的"下一个词续写"。

Supervised Fine-Tuning (SFT)

你给模型看几千个示例——一段 prompt 后面跟着一段好的回答——它学会模仿这个 pattern。这就是 behavior cloning,是从 GPT-3 走到 ChatGPT 的关键一步。

让人意外的部分:你需要的数据量非常少。几千个示例就够了,因为 SFT 只教好答案的 格式——知识本来就在预训练模型里。

Alpaca 项目甚至直接用另一个 LLM 生成自己的数据:52000 条指令-响应对,把一个 LLaMA 7B 微调成了一个能用的助理。

RLHF —— 与人类偏好对齐

SFT 有三个问题:受限于人的能力上限、会教模型幻觉(让模型 clone 一个它其实不知道的"正确答案",等于在教它编造)、理想答案造起来太贵。RLHF 解决这件事的办法是:优化的不是模仿,而是偏好。

模型生成两个答案。一个人类挑出更好的那个。这些偏好用来训练一个 reward model,然后用最大化 reward 的目标去优化 LLM——经典做法是 PPO

一个更简单的现代替代品 DPO,用普通监督学习就能达到差不多的质量,现在已经是开源社区的标配。


05. Evaluation & systems —— 证明它能用,让它真能跑起来

有两件事包裹着整条流水线。少一样你都拿不到一个真正的模型。

Evaluation:怎么衡量一个开放性的东西

预训练阶段的指标是 perplexity(困惑度)——模型在多少个 token 之间"犹豫"。从 2017 到 2023,最好的模型从在 ~70 个 token 之间犹豫降到了不到 10 个。但 perplexity 在对齐之后就崩了,所以 evaluation 转向 benchmarks 和对比:

诚实的结论:评估一个对齐过的模型是真的难,没有任何单一数字能捕捉它。同一个模型在 MMLU 上可能拿到 0.637,也可能拿到 0.488——只取决于 prompt 格式。

Systems:让训练物理上跑得起来

每个人都被 compute 卡住——GPU 又贵、又稀缺,又被通信速度物理性地限制住。一个 7B 模型朴素训起来就要 ~112GB。所以 systems 这一层不是可选项,它是让这整件事变得可行的根本:

整条流水线告诉我们什么

把五个阶段倒着走一遍,结论无可争议。架构——大家最痴迷的那部分——拿到的关注度是最少的。Data、scaling、alignment、evaluation、systems,才是每一个真实决策出现的地方。

这就是为什么两个用相同架构的实验室会做出截然不同的模型。 架构是共享的。其他真正重要的东西,不是。


让 LLM 项目沉船的几种错


结论

A great model is not trained. It is engineered. 一个伟大的模型不是被训出来的,是被工程出来的。

大多数人会继续相信造 LLM 是关于架构的事,会继续读 transformer 解释帖,会继续错过真正的工作发生的地方。

理解这条流水线的人会看得很清楚:language modeling,然后干净的数据,然后最优 scaling,然后对齐,然后在高效 systems 上做诚实的 evaluation。五个阶段。架构只是其中一个阶段里的一段话。

挑一个你一直在忽视的阶段——大概率是 data 或 evaluation。深进去。差别就住在那里。