如何从零搭建 LLM 架构

# 如何从零搭建 LLM 架构

> **来源**:[@shabnam_774 on X](https://x.com/shabnam_774/status/2058517919760355729) · 2026-05-24
>
> 深入剖析 OpenAI ChatGPT、Anthropic Claude 这类模型背后的系统

![](https://pbs.twimg.com/media/HJFTHHGbYAABWCk.jpg)

---

大多数人每天都在用 AI 模型。

但很少有人真正理解它们是怎么造出来的。

掀开盖子看,大语言模型(LLM)并不神奇。
它们是巨大的预测系统,用精心设计的神经网络架构在海量文本上训练出来。

但从零搭一个 LLM,远比"训练一个聊天机器人"复杂得多。

它涉及到:

- 数据工程(Data engineering)
- 分词(Tokenization)
- Transformer 架构
- 分布式训练(Distributed training)
- GPU 优化
- 强化学习(Reinforcement learning)
- 推理系统(Inference systems)
- 对齐层(Alignment layers)
- 内存优化

这篇文章会一步步把现代 LLM 的完整架构拆开讲,尽量做到实用、能看懂。

---

# 1. 什么是 LLM?

大语言模型是一个被训练来在序列中预测下一个 token 的神经网络。

举例:

输入:

> "The future of AI is"

模型预测:

> "transformative"

然后一个 token 接一个 token 继续往下预测。

这就是这些系统的根基:

- OpenAI GPT 系列
- Anthropic Claude
- Google Gemini
- Meta Llama

在足够大的规模下,这个看似简单的预测过程会变得极其强大。

---

# 2. 搭建 LLM 的核心流水线

完整流程长这样:

```
Raw Internet Data
        ↓
Cleaning + Filtering
        ↓
Tokenization
        ↓
Transformer Architecture
        ↓
Pretraining
        ↓
Fine-Tuning
        ↓
RLHF / Alignment
        ↓
Inference Optimization
        ↓
Deployment
```

每一个阶段都重要。

数据弱了或者架构设计差了,整个模型都会被毁掉。

---

# 3. 第一步:数据采集

LLM 需要海量数据集。

现代前沿模型训练在:

- 书籍
- 维基百科
- 研究论文
- 网页
- 代码仓库
- 文档
- 对话
- 论坛

数据来源可能包括:

- Common Crawl
- GitHub
- ArXiv
- Stack Overflow
- 公开数据集

目标是 多样性 + 规模。

一个用优质数据训练的小模型,常常能打败用噪声数据训练的大模型。

---

# 4. 数据清洗与过滤

互联网原始数据是混乱的。

你必须剔除:

- 垃圾内容(Spam)
- 重复数据
- 低质量文本
- 有毒内容
- 排版破损
- 重复序列
- AI 生成的垃圾

这一步被严重低估。

公司在数据质量上砸下巨额资源,因为:

> 更好的数据 > 更大的模型

常见过滤方法:

- 去重(Deduplication)
- 启发式过滤(Heuristic filtering)
- 质量打分(Quality scoring)
- 语种检测(Language detection)
- 安全过滤(Safety filtering)
- NSFW 过滤

---

# 5. 分词:把文本变成数字

神经网络看不懂单词。

它们只懂数字。

所以文本要先变成 token。

举例:

```
"ChatGPT is powerful"
↓
[1532, 4021, 318, 7821]
```

这个过程叫做 tokenization(分词)。

主流的分词方法:

- BPE(Byte Pair Encoding)
- SentencePiece
- WordPiece

Token 可以表示:

- 单词
- 子词(Subwords)
- 字符
- 标点

高效的分词方案对性能和成本影响巨大。

---

# 6. Embedding:给 Token 赋予含义

Token 会被转换成向量。

向量本质上是一串表示语义含义的数字。

举例:

```
King → [0.2, -0.8, 1.4, ...]
Queen → [0.3, -0.7, 1.5, ...]
```

含义相近的概念在向量空间里彼此靠近。

这就是模型学习单词关系的方式。

Embedding 是语义理解的基础。

---

# 7. Transformer 架构

它改变了一切。

Transformer 架构出自那篇里程碑式论文:

> Google Brain 研究者于 2017 年发表的 "Attention Is All You Need"。

Transformer 取代了更老的系统:

- RNN
- LSTM

因为它的扩展性远胜以往。

如今几乎所有现代 LLM 都跑在 Transformer 架构之上。

---

# 8. 自注意力:LLM 的心脏

自注意力(Self-attention)让模型决定:

> 在当前语境中,哪些词最重要。

举例:

"The animal didn't cross the street because it was tired."

模型学到:

> "it" 指的是 "animal"

而不是 "street"。

自注意力会动态地给 token 之间的关系打权重。

这才让上下文理解成为可能。

---

# 9. 理解 Q、K、V(Query, Key, Value)

注意力机制依靠:

- Query 向量
- Key 向量
- Value 向量

把它想象成搜索。

每个 token 都在问:

> "其他哪些 token 跟我相关?"

然后注意力分数决定其重要性。

公式:

```
Attention(Q,K,V) = softmax(QKᵀ / √dₖ)V
```

这是现代 AI 中最重要的方程之一。

---

# 10. 多头注意力(Multi-Head Attention)

不是只用一个注意力机制:

LLM 同时使用多个注意力头。

每个头学习不同种类的关系:

- 语法
- 逻辑
- 句法
- 上下文
- 长距离依赖

这极大地提升了表征学习能力。

---

# 11. 位置编码(Positional Encoding)

Transformer 是并行处理 token 的。

但语言是有顺序的。

所以模型需要位置信息。

举例:

```
Dog bites man
Man bites dog
```

字一样,含义完全相反。

位置编码帮助模型理解序列结构。

---

# 12. 前馈网络(Feed Forward Networks)

经过注意力层之后,token 会进入前馈神经网络。

这些层负责:

- 精炼表征
- 提升非线性
- 增强推理能力

一个 transformer block 通常包含:

```
Attention
↓
Normalization
↓
Feed Forward Network
↓
Normalization
```

这个块会被堆叠几十甚至上百次。

---

# 13. 缩放定律(Scaling Laws)

AI 领域的一个重大发现:

> 用更多数据训练更大的模型,性能通常会更好。

缩放包括:

- 更多参数
- 更多 token
- 更多算力

例子:

- GPT-2 → 15 亿参数
- GPT-3 → 1750 亿参数

现代前沿系统可能用上万亿参数(有时通过 Mixture-of-Experts 实现)。

---

# 14. 训练模型

训练就是调整权重,让预测误差最小化。

流程:

```
Input sentence
↓
Predict next token
↓
Compare prediction vs actual token
↓
Calculate loss
↓
Backpropagation
↓
Update weights
```

这个过程会重复几十亿次。

训练大模型可能需要:

- 数千张 GPU
- 几周到几个月
- 庞大的分布式系统

---

# 15. GPU 与分布式训练

LLM 是计算怪兽。

训练需要的 GPU 集群,比如:

- NVIDIA H100
- A100

训练方法包括:

- 数据并行(Data parallelism)
- 张量并行(Tensor parallelism)
- 流水线并行(Pipeline parallelism)

框架:

- PyTorch
- DeepSpeed
- Megatron-LM
- JAX

基础设施和模型设计本身一样重要。

---

# 16. 损失函数与优化

模型靠以下优化算法学习:

- AdamW
- SGD 变种

目标:

最小化预测损失。

语言建模常用 cross-entropy loss(交叉熵损失)。

损失越小 = 预测越准。

---

# 17. 微调(Fine-Tuning)

预训练完之后,模型还要被专业化。

例子:

- 编程助手
- 医疗模型
- 法律 AI
- 客服机器人

微调使用更小、经过精挑细选的数据集。

它把基础模型适配到具体任务上。

---

# 18. RLHF:基于人类反馈的强化学习

这是让 ChatGPT 这类系统变得"会聊天"的关键。

人类对输出排序。

模型学习人类的偏好。

流程:

```
Base Model
↓
Supervised Fine-Tuning
↓
Reward Model
↓
Reinforcement Learning
```

RLHF 帮助模型变得:

- 有帮助(Helpful)
- 无害(Harmless)
- 诚实(Honest)

---

# 19. 上下文窗口与记忆

上下文窗口 = 模型在推理时能"记住"的文本量。

例子:

- 4K tokens
- 32K tokens
- 128K+ tokens

更长的上下文需要更进阶的优化,因为注意力的开销增长非常快。

新技术包括:

- Flash Attention
- 滑动窗口注意力(Sliding window attention)
- 检索增强(Retrieval augmentation)

---

# 20. 推理优化

训练昂贵。

推理则必须够快。

优化技术包括:

- 量化(Quantization)
- KV 缓存(KV caching)
- 投机解码(Speculative decoding)
- TensorRT
- 蒸馏(Distillation)

目标:

更低的延迟 + 更低的成本。

---

# 21. 检索增强生成(RAG)

LLM 并不真的"知道"一切。

所以现代系统会动态地检索外部知识。

流程:

```
User Query
↓
Search Database
↓
Retrieve Relevant Chunks
↓
Inject Into Prompt
↓
Generate Response
```

这能改善:

- 准确性
- 时效性
- 企业级应用能力

---

# 22. 专家混合(Mixture-of-Experts,MoE)

现代前沿模型越来越多地采用 MoE 架构。

不是激活整个模型:

而是每个 token 只激活被选中的专家网络。

好处:

- 更大的有效参数规模
- 更低的算力开销
- 更好的扩展效率

这被认为对许多现代系统至关重要。

---

# 23. AI 对齐与安全

原始模型可能产出有害输出。

对齐层的作用是强制:

- 安全
- 政策合规
- 真实性
- 行为约束

技术手段包括:

- Constitutional AI(宪法式 AI)
- RLHF
- 红队测试(Red teaming)
- 对抗性测试(Adversarial testing)

对齐如今是 AI 中最难的问题之一。

---

# 24. 真正的难题不是架构

大多数人以为最难的部分是搭出 Transformer。

并不是。

最难的部分其实是:

- 数据质量
- 基础设施
- 规模化
- 优化
- 对齐
- 推理经济性

那篇 Transformer 论文只是开始。

真正的工程难题,是把这些系统做到可扩展、可使用。

---

# 25. 收尾

LLM 是现代史上最重要的技术突破之一。

但它们不是魔法。

它们是以下要素叠加的结果:

- 数学
- 分布式系统
- 海量数据集
- 优化工程
- 人类反馈循环

而我们仍处于极早期。

未来十年的 AI 大概率会被这些方向塑造:

- 更强的推理
- 自主 agent
- 多模态系统
- 更高效的架构
- 实时个性化

理解 LLM 是怎么造出来的,对工程师而言已不再是可选项。

它正在成为面向未来技术的基础知识。

---

**原推文链接**: https://x.com/shabnam_774/status/2058517919760355729