如何从零搭建 LLM 架构

来源：@shabnam_774 on X · 2026-05-24

深入剖析 OpenAI ChatGPT、Anthropic Claude 这类模型背后的系统

大多数人每天都在用 AI 模型。

但很少有人真正理解它们是怎么造出来的。

掀开盖子看，大语言模型（LLM）并不神奇。它们是巨大的预测系统，用精心设计的神经网络架构在海量文本上训练出来。

但从零搭一个 LLM，远比"训练一个聊天机器人"复杂得多。

它涉及到：

数据工程（Data engineering）
分词（Tokenization）
Transformer 架构
分布式训练（Distributed training）
GPU 优化
强化学习（Reinforcement learning）
推理系统（Inference systems）
对齐层（Alignment layers）
内存优化

这篇文章会一步步把现代 LLM 的完整架构拆开讲，尽量做到实用、能看懂。

1. 什么是 LLM？

大语言模型是一个被训练来在序列中预测下一个 token 的神经网络。

举例：

输入：

"The future of AI is"

模型预测：

"transformative"

然后一个 token 接一个 token 继续往下预测。

这就是这些系统的根基：

OpenAI GPT 系列
Anthropic Claude
Google Gemini
Meta Llama

在足够大的规模下，这个看似简单的预测过程会变得极其强大。

2. 搭建 LLM 的核心流水线

完整流程长这样：

Raw Internet Data
        ↓
Cleaning + Filtering
        ↓
Tokenization
        ↓
Transformer Architecture
        ↓
Pretraining
        ↓
Fine-Tuning
        ↓
RLHF / Alignment
        ↓
Inference Optimization
        ↓
Deployment

每一个阶段都重要。

数据弱了或者架构设计差了，整个模型都会被毁掉。

3. 第一步：数据采集

LLM 需要海量数据集。

现代前沿模型训练在：

书籍
维基百科
研究论文
网页
代码仓库
文档
对话
论坛

数据来源可能包括：

Common Crawl
GitHub
ArXiv
Stack Overflow
公开数据集

目标是多样性 + 规模。

一个用优质数据训练的小模型，常常能打败用噪声数据训练的大模型。

4. 数据清洗与过滤

互联网原始数据是混乱的。

你必须剔除：

垃圾内容（Spam）
重复数据
低质量文本
有毒内容
排版破损
重复序列
AI 生成的垃圾

这一步被严重低估。

公司在数据质量上砸下巨额资源，因为：

更好的数据 > 更大的模型

常见过滤方法：

去重（Deduplication）
启发式过滤（Heuristic filtering）
质量打分（Quality scoring）
语种检测（Language detection）
安全过滤（Safety filtering）
NSFW 过滤

5. 分词：把文本变成数字

神经网络看不懂单词。

它们只懂数字。

所以文本要先变成 token。

举例：

"ChatGPT is powerful"
↓
[1532, 4021, 318, 7821]

这个过程叫做 tokenization（分词）。

主流的分词方法：

BPE（Byte Pair Encoding）
SentencePiece
WordPiece

Token 可以表示：

单词
子词（Subwords）
字符
标点

高效的分词方案对性能和成本影响巨大。

6. Embedding：给 Token 赋予含义

Token 会被转换成向量。

向量本质上是一串表示语义含义的数字。

举例：

King → [0.2, -0.8, 1.4, ...]
Queen → [0.3, -0.7, 1.5, ...]

含义相近的概念在向量空间里彼此靠近。

这就是模型学习单词关系的方式。

Embedding 是语义理解的基础。

7. Transformer 架构

它改变了一切。

Transformer 架构出自那篇里程碑式论文：

Google Brain 研究者于 2017 年发表的 "Attention Is All You Need"。

Transformer 取代了更老的系统：

RNN
LSTM

因为它的扩展性远胜以往。

如今几乎所有现代 LLM 都跑在 Transformer 架构之上。

8. 自注意力：LLM 的心脏

自注意力（Self-attention）让模型决定：

在当前语境中，哪些词最重要。

举例：

"The animal didn't cross the street because it was tired."

模型学到：

"it" 指的是 "animal"

而不是 "street"。

自注意力会动态地给 token 之间的关系打权重。

这才让上下文理解成为可能。

9. 理解 Q、K、V（Query, Key, Value）

注意力机制依靠：

Query 向量
Key 向量
Value 向量

把它想象成搜索。

每个 token 都在问：

"其他哪些 token 跟我相关？"

然后注意力分数决定其重要性。

公式：

Attention(Q,K,V) = softmax(QKᵀ / √dₖ)V

这是现代 AI 中最重要的方程之一。

10. 多头注意力（Multi-Head Attention）

不是只用一个注意力机制：

LLM 同时使用多个注意力头。

每个头学习不同种类的关系：

语法
逻辑
句法
上下文
长距离依赖

这极大地提升了表征学习能力。

11. 位置编码（Positional Encoding）

Transformer 是并行处理 token 的。

但语言是有顺序的。

所以模型需要位置信息。

举例：

Dog bites man
Man bites dog

字一样，含义完全相反。

位置编码帮助模型理解序列结构。

12. 前馈网络（Feed Forward Networks）

经过注意力层之后，token 会进入前馈神经网络。

这些层负责：

精炼表征
提升非线性
增强推理能力

一个 transformer block 通常包含：

Attention
↓
Normalization
↓
Feed Forward Network
↓
Normalization

这个块会被堆叠几十甚至上百次。

13. 缩放定律（Scaling Laws）

AI 领域的一个重大发现：

用更多数据训练更大的模型，性能通常会更好。

缩放包括：

更多参数
更多 token
更多算力

例子：

GPT-2 → 15 亿参数
GPT-3 → 1750 亿参数

现代前沿系统可能用上万亿参数（有时通过 Mixture-of-Experts 实现）。

14. 训练模型

训练就是调整权重，让预测误差最小化。

流程：

Input sentence
↓
Predict next token
↓
Compare prediction vs actual token
↓
Calculate loss
↓
Backpropagation
↓
Update weights

这个过程会重复几十亿次。

训练大模型可能需要：

数千张 GPU
几周到几个月
庞大的分布式系统

15. GPU 与分布式训练

LLM 是计算怪兽。

训练需要的 GPU 集群，比如：

NVIDIA H100
A100

训练方法包括：

数据并行（Data parallelism）
张量并行（Tensor parallelism）
流水线并行（Pipeline parallelism）

框架：

PyTorch
DeepSpeed
Megatron-LM
JAX

基础设施和模型设计本身一样重要。

16. 损失函数与优化

模型靠以下优化算法学习：

AdamW
SGD 变种

目标：

最小化预测损失。

语言建模常用 cross-entropy loss（交叉熵损失）。

损失越小 = 预测越准。

17. 微调（Fine-Tuning）

预训练完之后，模型还要被专业化。

例子：

编程助手
医疗模型
法律 AI
客服机器人

微调使用更小、经过精挑细选的数据集。

它把基础模型适配到具体任务上。

18. RLHF：基于人类反馈的强化学习

这是让 ChatGPT 这类系统变得"会聊天"的关键。

人类对输出排序。

模型学习人类的偏好。

流程：

Base Model
↓
Supervised Fine-Tuning
↓
Reward Model
↓
Reinforcement Learning

RLHF 帮助模型变得：

有帮助（Helpful）
无害（Harmless）
诚实（Honest）

19. 上下文窗口与记忆

上下文窗口 = 模型在推理时能"记住"的文本量。

例子：

4K tokens
32K tokens
128K+ tokens

更长的上下文需要更进阶的优化，因为注意力的开销增长非常快。

新技术包括：

Flash Attention
滑动窗口注意力（Sliding window attention）
检索增强（Retrieval augmentation）

20. 推理优化

训练昂贵。

推理则必须够快。

优化技术包括：

量化（Quantization）
KV 缓存（KV caching）
投机解码（Speculative decoding）
TensorRT
蒸馏（Distillation）

目标：

更低的延迟 + 更低的成本。

21. 检索增强生成（RAG）

LLM 并不真的"知道"一切。

所以现代系统会动态地检索外部知识。

流程：

User Query
↓
Search Database
↓
Retrieve Relevant Chunks
↓
Inject Into Prompt
↓
Generate Response

这能改善：

准确性
时效性
企业级应用能力

22. 专家混合（Mixture-of-Experts，MoE）

现代前沿模型越来越多地采用 MoE 架构。

不是激活整个模型：

而是每个 token 只激活被选中的专家网络。

好处：

更大的有效参数规模
更低的算力开销
更好的扩展效率

这被认为对许多现代系统至关重要。

23. AI 对齐与安全

原始模型可能产出有害输出。

对齐层的作用是强制：

安全
政策合规
真实性
行为约束

技术手段包括：

Constitutional AI（宪法式 AI）
RLHF
红队测试（Red teaming）
对抗性测试（Adversarial testing）

对齐如今是 AI 中最难的问题之一。

24. 真正的难题不是架构

大多数人以为最难的部分是搭出 Transformer。

并不是。

最难的部分其实是：

数据质量
基础设施
规模化
优化
对齐
推理经济性

那篇 Transformer 论文只是开始。

真正的工程难题，是把这些系统做到可扩展、可使用。

25. 收尾

LLM 是现代史上最重要的技术突破之一。

但它们不是魔法。

它们是以下要素叠加的结果：

数学
分布式系统
海量数据集
优化工程
人类反馈循环

而我们仍处于极早期。

未来十年的 AI 大概率会被这些方向塑造：

更强的推理
自主 agent
多模态系统
更高效的架构
实时个性化

理解 LLM 是怎么造出来的，对工程师而言已不再是可选项。

它正在成为面向未来技术的基础知识。

原推文链接: https://x.com/shabnam_774/status/2058517919760355729