如何从零搭建 LLM 架构

# 如何从零搭建 LLM 架构

> **来源**：[@shabnam_774 on X](https://x.com/shabnam_774/status/2058517919760355729) · 2026-05-24
>
> 深入剖析 OpenAI ChatGPT、Anthropic Claude 这类模型背后的系统

![](https://pbs.twimg.com/media/HJFTHHGbYAABWCk.jpg)

---

大多数人每天都在用 AI 模型。

但很少有人真正理解它们是怎么造出来的。

掀开盖子看，大语言模型（LLM）并不神奇。
它们是巨大的预测系统，用精心设计的神经网络架构在海量文本上训练出来。

但从零搭一个 LLM，远比"训练一个聊天机器人"复杂得多。

它涉及到：

- 数据工程（Data engineering）
- 分词（Tokenization）
- Transformer 架构
- 分布式训练（Distributed training）
- GPU 优化
- 强化学习（Reinforcement learning）
- 推理系统（Inference systems）
- 对齐层（Alignment layers）
- 内存优化

这篇文章会一步步把现代 LLM 的完整架构拆开讲，尽量做到实用、能看懂。

---

# 1. 什么是 LLM？

大语言模型是一个被训练来在序列中预测下一个 token 的神经网络。

举例：

输入：

> "The future of AI is"

模型预测：

> "transformative"

然后一个 token 接一个 token 继续往下预测。

这就是这些系统的根基：

- OpenAI GPT 系列
- Anthropic Claude
- Google Gemini
- Meta Llama

在足够大的规模下，这个看似简单的预测过程会变得极其强大。

---

# 2. 搭建 LLM 的核心流水线

完整流程长这样：

```
Raw Internet Data
        ↓
Cleaning + Filtering
        ↓
Tokenization
        ↓
Transformer Architecture
        ↓
Pretraining
        ↓
Fine-Tuning
        ↓
RLHF / Alignment
        ↓
Inference Optimization
        ↓
Deployment
```

每一个阶段都重要。

数据弱了或者架构设计差了，整个模型都会被毁掉。

---

# 3. 第一步：数据采集

LLM 需要海量数据集。

现代前沿模型训练在：

- 书籍
- 维基百科
- 研究论文
- 网页
- 代码仓库
- 文档
- 对话
- 论坛

数据来源可能包括：

- Common Crawl
- GitHub
- ArXiv
- Stack Overflow
- 公开数据集

目标是 多样性 + 规模。

一个用优质数据训练的小模型，常常能打败用噪声数据训练的大模型。

---

# 4. 数据清洗与过滤

互联网原始数据是混乱的。

你必须剔除：

- 垃圾内容（Spam）
- 重复数据
- 低质量文本
- 有毒内容
- 排版破损
- 重复序列
- AI 生成的垃圾

这一步被严重低估。

公司在数据质量上砸下巨额资源，因为：

> 更好的数据 > 更大的模型

常见过滤方法：

- 去重（Deduplication）
- 启发式过滤（Heuristic filtering）
- 质量打分（Quality scoring）
- 语种检测（Language detection）
- 安全过滤（Safety filtering）
- NSFW 过滤

---

# 5. 分词：把文本变成数字

神经网络看不懂单词。

它们只懂数字。

所以文本要先变成 token。

举例：

```
"ChatGPT is powerful"
↓
[1532, 4021, 318, 7821]
```

这个过程叫做 tokenization（分词）。

主流的分词方法：

- BPE（Byte Pair Encoding）
- SentencePiece
- WordPiece

Token 可以表示：

- 单词
- 子词（Subwords）
- 字符
- 标点

高效的分词方案对性能和成本影响巨大。

---

# 6. Embedding：给 Token 赋予含义

Token 会被转换成向量。

向量本质上是一串表示语义含义的数字。

举例：

```
King → [0.2, -0.8, 1.4, ...]
Queen → [0.3, -0.7, 1.5, ...]
```

含义相近的概念在向量空间里彼此靠近。

这就是模型学习单词关系的方式。

Embedding 是语义理解的基础。

---

# 7. Transformer 架构

它改变了一切。

Transformer 架构出自那篇里程碑式论文：

> Google Brain 研究者于 2017 年发表的 "Attention Is All You Need"。

Transformer 取代了更老的系统：

- RNN
- LSTM

因为它的扩展性远胜以往。

如今几乎所有现代 LLM 都跑在 Transformer 架构之上。

---

# 8. 自注意力：LLM 的心脏

自注意力（Self-attention）让模型决定：

> 在当前语境中，哪些词最重要。

举例：

"The animal didn't cross the street because it was tired."

模型学到：

> "it" 指的是 "animal"

而不是 "street"。

自注意力会动态地给 token 之间的关系打权重。

这才让上下文理解成为可能。

---

# 9. 理解 Q、K、V（Query, Key, Value）

注意力机制依靠：

- Query 向量
- Key 向量
- Value 向量

把它想象成搜索。

每个 token 都在问：

> "其他哪些 token 跟我相关？"

然后注意力分数决定其重要性。

公式：

```
Attention(Q,K,V) = softmax(QKᵀ / √dₖ)V
```

这是现代 AI 中最重要的方程之一。

---

# 10. 多头注意力（Multi-Head Attention）

不是只用一个注意力机制：

LLM 同时使用多个注意力头。

每个头学习不同种类的关系：

- 语法
- 逻辑
- 句法
- 上下文
- 长距离依赖

这极大地提升了表征学习能力。

---

# 11. 位置编码（Positional Encoding）

Transformer 是并行处理 token 的。

但语言是有顺序的。

所以模型需要位置信息。

举例：

```
Dog bites man
Man bites dog
```

字一样，含义完全相反。

位置编码帮助模型理解序列结构。

---

# 12. 前馈网络（Feed Forward Networks）

经过注意力层之后，token 会进入前馈神经网络。

这些层负责：

- 精炼表征
- 提升非线性
- 增强推理能力

一个 transformer block 通常包含：

```
Attention
↓
Normalization
↓
Feed Forward Network
↓
Normalization
```

这个块会被堆叠几十甚至上百次。

---

# 13. 缩放定律（Scaling Laws）

AI 领域的一个重大发现：

> 用更多数据训练更大的模型，性能通常会更好。

缩放包括：

- 更多参数
- 更多 token
- 更多算力

例子：

- GPT-2 → 15 亿参数
- GPT-3 → 1750 亿参数

现代前沿系统可能用上万亿参数（有时通过 Mixture-of-Experts 实现）。

---

# 14. 训练模型

训练就是调整权重，让预测误差最小化。

流程：

```
Input sentence
↓
Predict next token
↓
Compare prediction vs actual token
↓
Calculate loss
↓
Backpropagation
↓
Update weights
```

这个过程会重复几十亿次。

训练大模型可能需要：

- 数千张 GPU
- 几周到几个月
- 庞大的分布式系统

---

# 15. GPU 与分布式训练

LLM 是计算怪兽。

训练需要的 GPU 集群，比如：

- NVIDIA H100
- A100

训练方法包括：

- 数据并行（Data parallelism）
- 张量并行（Tensor parallelism）
- 流水线并行（Pipeline parallelism）

框架：

- PyTorch
- DeepSpeed
- Megatron-LM
- JAX

基础设施和模型设计本身一样重要。

---

# 16. 损失函数与优化

模型靠以下优化算法学习：

- AdamW
- SGD 变种

目标：

最小化预测损失。

语言建模常用 cross-entropy loss（交叉熵损失）。

损失越小 = 预测越准。

---

# 17. 微调（Fine-Tuning）

预训练完之后，模型还要被专业化。

例子：

- 编程助手
- 医疗模型
- 法律 AI
- 客服机器人

微调使用更小、经过精挑细选的数据集。

它把基础模型适配到具体任务上。

---

# 18. RLHF：基于人类反馈的强化学习

这是让 ChatGPT 这类系统变得"会聊天"的关键。

人类对输出排序。

模型学习人类的偏好。

流程：

```
Base Model
↓
Supervised Fine-Tuning
↓
Reward Model
↓
Reinforcement Learning
```

RLHF 帮助模型变得：

- 有帮助（Helpful）
- 无害（Harmless）
- 诚实（Honest）

---

# 19. 上下文窗口与记忆

上下文窗口 = 模型在推理时能"记住"的文本量。

例子：

- 4K tokens
- 32K tokens
- 128K+ tokens

更长的上下文需要更进阶的优化，因为注意力的开销增长非常快。

新技术包括：

- Flash Attention
- 滑动窗口注意力（Sliding window attention）
- 检索增强（Retrieval augmentation）

---

# 20. 推理优化

训练昂贵。

推理则必须够快。

优化技术包括：

- 量化（Quantization）
- KV 缓存（KV caching）
- 投机解码（Speculative decoding）
- TensorRT
- 蒸馏（Distillation）

目标：

更低的延迟 + 更低的成本。

---

# 21. 检索增强生成（RAG）

LLM 并不真的"知道"一切。

所以现代系统会动态地检索外部知识。

流程：

```
User Query
↓
Search Database
↓
Retrieve Relevant Chunks
↓
Inject Into Prompt
↓
Generate Response
```

这能改善：

- 准确性
- 时效性
- 企业级应用能力

---

# 22. 专家混合（Mixture-of-Experts，MoE）

现代前沿模型越来越多地采用 MoE 架构。

不是激活整个模型：

而是每个 token 只激活被选中的专家网络。

好处：

- 更大的有效参数规模
- 更低的算力开销
- 更好的扩展效率

这被认为对许多现代系统至关重要。

---

# 23. AI 对齐与安全

原始模型可能产出有害输出。

对齐层的作用是强制：

- 安全
- 政策合规
- 真实性
- 行为约束

技术手段包括：

- Constitutional AI（宪法式 AI）
- RLHF
- 红队测试（Red teaming）
- 对抗性测试（Adversarial testing）

对齐如今是 AI 中最难的问题之一。

---

# 24. 真正的难题不是架构

大多数人以为最难的部分是搭出 Transformer。

并不是。

最难的部分其实是：

- 数据质量
- 基础设施
- 规模化
- 优化
- 对齐
- 推理经济性

那篇 Transformer 论文只是开始。

真正的工程难题，是把这些系统做到可扩展、可使用。

---

# 25. 收尾

LLM 是现代史上最重要的技术突破之一。

但它们不是魔法。

它们是以下要素叠加的结果：

- 数学
- 分布式系统
- 海量数据集
- 优化工程
- 人类反馈循环

而我们仍处于极早期。

未来十年的 AI 大概率会被这些方向塑造：

- 更强的推理
- 自主 agent
- 多模态系统
- 更高效的架构
- 实时个性化

理解 LLM 是怎么造出来的，对工程师而言已不再是可选项。

它正在成为面向未来技术的基础知识。

---

**原推文链接**: https://x.com/shabnam_774/status/2058517919760355729