如何从零搭建 LLM 架构

如何从零搭建 LLM 架构

来源@shabnam_774 on X · 2026-05-24

深入剖析 OpenAI ChatGPT、Anthropic Claude 这类模型背后的系统


大多数人每天都在用 AI 模型。

但很少有人真正理解它们是怎么造出来的。

掀开盖子看,大语言模型(LLM)并不神奇。 它们是巨大的预测系统,用精心设计的神经网络架构在海量文本上训练出来。

但从零搭一个 LLM,远比"训练一个聊天机器人"复杂得多。

它涉及到:

这篇文章会一步步把现代 LLM 的完整架构拆开讲,尽量做到实用、能看懂。


1. 什么是 LLM?

大语言模型是一个被训练来在序列中预测下一个 token 的神经网络。

举例:

输入:

"The future of AI is"

模型预测:

"transformative"

然后一个 token 接一个 token 继续往下预测。

这就是这些系统的根基:

在足够大的规模下,这个看似简单的预测过程会变得极其强大。


2. 搭建 LLM 的核心流水线

完整流程长这样:

Raw Internet Data
        ↓
Cleaning + Filtering
        ↓
Tokenization
        ↓
Transformer Architecture
        ↓
Pretraining
        ↓
Fine-Tuning
        ↓
RLHF / Alignment
        ↓
Inference Optimization
        ↓
Deployment

每一个阶段都重要。

数据弱了或者架构设计差了,整个模型都会被毁掉。


3. 第一步:数据采集

LLM 需要海量数据集。

现代前沿模型训练在:

数据来源可能包括:

目标是 多样性 + 规模。

一个用优质数据训练的小模型,常常能打败用噪声数据训练的大模型。


4. 数据清洗与过滤

互联网原始数据是混乱的。

你必须剔除:

这一步被严重低估。

公司在数据质量上砸下巨额资源,因为:

更好的数据 > 更大的模型

常见过滤方法:


5. 分词:把文本变成数字

神经网络看不懂单词。

它们只懂数字。

所以文本要先变成 token。

举例:

"ChatGPT is powerful"
↓
[1532, 4021, 318, 7821]

这个过程叫做 tokenization(分词)。

主流的分词方法:

Token 可以表示:

高效的分词方案对性能和成本影响巨大。


6. Embedding:给 Token 赋予含义

Token 会被转换成向量。

向量本质上是一串表示语义含义的数字。

举例:

King → [0.2, -0.8, 1.4, ...]
Queen → [0.3, -0.7, 1.5, ...]

含义相近的概念在向量空间里彼此靠近。

这就是模型学习单词关系的方式。

Embedding 是语义理解的基础。


7. Transformer 架构

它改变了一切。

Transformer 架构出自那篇里程碑式论文:

Google Brain 研究者于 2017 年发表的 "Attention Is All You Need"。

Transformer 取代了更老的系统:

因为它的扩展性远胜以往。

如今几乎所有现代 LLM 都跑在 Transformer 架构之上。


8. 自注意力:LLM 的心脏

自注意力(Self-attention)让模型决定:

在当前语境中,哪些词最重要。

举例:

"The animal didn't cross the street because it was tired."

模型学到:

"it" 指的是 "animal"

而不是 "street"。

自注意力会动态地给 token 之间的关系打权重。

这才让上下文理解成为可能。


9. 理解 Q、K、V(Query, Key, Value)

注意力机制依靠:

把它想象成搜索。

每个 token 都在问:

"其他哪些 token 跟我相关?"

然后注意力分数决定其重要性。

公式:

Attention(Q,K,V) = softmax(QKᵀ / √dₖ)V

这是现代 AI 中最重要的方程之一。


10. 多头注意力(Multi-Head Attention)

不是只用一个注意力机制:

LLM 同时使用多个注意力头。

每个头学习不同种类的关系:

这极大地提升了表征学习能力。


11. 位置编码(Positional Encoding)

Transformer 是并行处理 token 的。

但语言是有顺序的。

所以模型需要位置信息。

举例:

Dog bites man
Man bites dog

字一样,含义完全相反。

位置编码帮助模型理解序列结构。


12. 前馈网络(Feed Forward Networks)

经过注意力层之后,token 会进入前馈神经网络。

这些层负责:

一个 transformer block 通常包含:

Attention
↓
Normalization
↓
Feed Forward Network
↓
Normalization

这个块会被堆叠几十甚至上百次。


13. 缩放定律(Scaling Laws)

AI 领域的一个重大发现:

用更多数据训练更大的模型,性能通常会更好。

缩放包括:

例子:

现代前沿系统可能用上万亿参数(有时通过 Mixture-of-Experts 实现)。


14. 训练模型

训练就是调整权重,让预测误差最小化。

流程:

Input sentence
↓
Predict next token
↓
Compare prediction vs actual token
↓
Calculate loss
↓
Backpropagation
↓
Update weights

这个过程会重复几十亿次。

训练大模型可能需要:


15. GPU 与分布式训练

LLM 是计算怪兽。

训练需要的 GPU 集群,比如:

训练方法包括:

框架:

基础设施和模型设计本身一样重要。


16. 损失函数与优化

模型靠以下优化算法学习:

目标:

最小化预测损失。

语言建模常用 cross-entropy loss(交叉熵损失)。

损失越小 = 预测越准。


17. 微调(Fine-Tuning)

预训练完之后,模型还要被专业化。

例子:

微调使用更小、经过精挑细选的数据集。

它把基础模型适配到具体任务上。


18. RLHF:基于人类反馈的强化学习

这是让 ChatGPT 这类系统变得"会聊天"的关键。

人类对输出排序。

模型学习人类的偏好。

流程:

Base Model
↓
Supervised Fine-Tuning
↓
Reward Model
↓
Reinforcement Learning

RLHF 帮助模型变得:


19. 上下文窗口与记忆

上下文窗口 = 模型在推理时能"记住"的文本量。

例子:

更长的上下文需要更进阶的优化,因为注意力的开销增长非常快。

新技术包括:


20. 推理优化

训练昂贵。

推理则必须够快。

优化技术包括:

目标:

更低的延迟 + 更低的成本。


21. 检索增强生成(RAG)

LLM 并不真的"知道"一切。

所以现代系统会动态地检索外部知识。

流程:

User Query
↓
Search Database
↓
Retrieve Relevant Chunks
↓
Inject Into Prompt
↓
Generate Response

这能改善:


22. 专家混合(Mixture-of-Experts,MoE)

现代前沿模型越来越多地采用 MoE 架构。

不是激活整个模型:

而是每个 token 只激活被选中的专家网络。

好处:

这被认为对许多现代系统至关重要。


23. AI 对齐与安全

原始模型可能产出有害输出。

对齐层的作用是强制:

技术手段包括:

对齐如今是 AI 中最难的问题之一。


24. 真正的难题不是架构

大多数人以为最难的部分是搭出 Transformer。

并不是。

最难的部分其实是:

那篇 Transformer 论文只是开始。

真正的工程难题,是把这些系统做到可扩展、可使用。


25. 收尾

LLM 是现代史上最重要的技术突破之一。

但它们不是魔法。

它们是以下要素叠加的结果:

而我们仍处于极早期。

未来十年的 AI 大概率会被这些方向塑造:

理解 LLM 是怎么造出来的,对工程师而言已不再是可选项。

它正在成为面向未来技术的基础知识。


原推文链接: https://x.com/shabnam_774/status/2058517919760355729