25 个常被挂在嘴上、但没几个人真懂的 AI 概念

# 25 个常被挂在嘴上、但没几个人真懂的 AI 概念

> **作者**: [@techNmak](https://x.com/techNmak)
> **发布**: 2026-05-25
> **原文**: https://x.com/techNmak/status/2058886981090951627

![Cover](https://pbs.twimg.com/media/HJHSOKPaoAAYYF_.jpg)

AI 在大多数人搞清它的词汇之前,就成了主流。

所以你听到的很多 AI 对话,听起来很自信,其实模糊。大家把 "token"、"embedding"、"RAG"、"agent"、"LoRA"、"eval"、"guardrail" 挂在嘴上,仿佛每个人对这些词的理解都一样。

绝大多数时候,并不一样。

这个差距很要紧,因为这些不是花哨的术语。它们是机器的零件。

> 不懂 token,就不懂 context。
> 不懂 embedding,就不懂 semantic search。
> 不懂 RAG,就会高估检索能修的东西。
> 不懂 agent,就会把自主和循环搞混。
> 不懂 eval,就只能凭感觉评判 AI 系统。

所以我想写一份我自己会收藏的指南。

对新手够清晰。对工程师够准确。回头还能再翻。

下面是 25 个让现代 AI 没那么晕的概念。

## 1. Tokens

**关于 LLM,要懂的第一件事:它处理文本的方式,跟我们读文本的方式不一样。** 它处理的是 token。

一个 token 可以是完整的词、词的一部分、标点、空格,或者特殊符号。所以一个词不一定等于一个 token。

**这个小细节几乎决定了一切**——context 长度、成本、延迟、截断、生成。当你发一段 prompt 过去,模型看到的不是"一段话"。它看到的是一串 token ID。

那串 ID 才是模型的原料。所以在搞 context window、定价、生成之前,得先搞懂 token。它们是这个系统里最小的实用单位。

## 2. Next-token prediction(下一个 token 预测)

**说到底,语言模型一直在问同一个问题**——下一个 token 该是什么?

**它读当前的 context,给所有可能的下一个 token 算出一个概率分布。** 选一个 token,加回 context 里,重复这个过程。一段完整的回答就这么出来——不是一次性的,是一个 token 一个 token 长出来的。

这也是为什么同一个 prompt 有时候给出不同答案。模型可能给好几条合理的延续都分了概率。是 decoding 策略决定走哪条。

**Temperature 控制概率分布的尖锐还是平坦。** 低 temperature 让模型更保守。高 temperature 让它更多变,但有时不稳。Top-k 把采样限制在概率最高的 k 个 token 里。Top-p(也叫 nucleus sampling)保留一组 token,让它们的概率累加刚好越过设定的阈值。

这些参数不会改变模型学到的东西。它们只改变模型怎么从已有的可能里做选择。

所以下次你觉得一段答案像"在写作",记住底下发生的事——模型在一步一步把序列长出来。

## 3. Context window

**Context window 是模型一次运行能用的信息。**

它可以装 system prompt、用户消息、对话历史、检索到的文档、工具调用结果、记忆片段、示例、约束。但 context 经常被误解。

**更大的 context window 有用,但不自动等于更好。** 如果你给模型一堆乱、过期、重复或不相关的信息,问题不会消失。你只是把问题搬进了 prompt。

还有质量上的影响:埋在很长 context 中段的信息,被注意到的可靠性比开头或结尾低。

更准的心智模型是:context 是工作记忆。不是存储,不是真理,不是永久知识。只是模型此刻能用的信息。

好的 AI 系统会精挑什么进得了这个空间。它们不会一股脑塞进去,指望模型自己理清楚。

## 4. Attention

Attention 是让现代语言模型在大规模上 work 的关键想法之一。

**简单版:token 可以从其他 token 那里加权吸收信息。** 这让模型能建立对上下文敏感的表示。"Bank" 挨着 "river" 和 "bank" 挨着 "loan" 应该表现不同。Attention 帮模型造出这个差别。

但对现代 decoder-only 的 LLM 来说,有一条重要约束:causal self-attention(因果自注意力)。每个 token 只能 attend 它前面的 token,不能看后面的。这个未来 token mask 保住了 autoregressive 生成。模型不能偷看还没生成的 token。

所以 attention 不是"模型像人一样在理解"。它是一种在可见 context 里路由信息的机制。强大,但仍然只是机制。

## 5. Transformers

**Transformer 是现在大多数文本 LLM 背后的架构。**

最初的突破是把 attention 当成核心操作,不再依赖 recurrence 或 convolution 来做序列建模。一个 transformer block 通常包含 attention、前馈层、残差连接、归一化。把很多这样的 block 叠起来,大规模训练,就有了现代语言模型的骨架。

有一个细节要注意——transformer 在训练和处理 prompt 时可以并行处理输入 token,但生成仍然是 autoregressive 的。模型还是一个 token 一个 token 地输出。

所以 "Transformer" 不是某一个模型,也不是某家公司的产品。它是一族架构,是现代 LLM 能做大规模的原因。

## 6. Embeddings

**Embedding 把数据变成向量。**

文本能变向量。代码能变向量。图像和音频也能。它有用的属性是相似度:如果两段内容相关,它们的向量可能落得很近。

semantic search 就是这么成立的。"how do I make my site faster?" 这样一句查询,能匹配到讲 "page load optimization" 的文档,哪怕字面上完全不重叠。

但 embedding 不是魔法意义。它们是学到的表示。保留某些关系,丢失另一些。

适合产品搜索的 embedding 模型,不一定适合法律文档。适合英文支持文档的,不一定适合代码。

真正要问的不是:我们用没用 embedding?

真正要问的是:这套 embedding 对这个任务有用吗?

## 7. Vector databases(向量数据库)

**向量数据库存 embedding,并能高效地检索附近的向量。**

常见流程很简单:把文档切成 chunk、生成 embedding、连同元数据一起存、把用户查询也 embed、搜附近的向量、返回可能的匹配。

听上去很干净。麻烦的是周围的一切。

文档怎么切的 chunk?元数据保留了吗?过期文档过滤掉了吗?权限尊重了吗?精确字段处理了吗?结果重排了吗?

向量数据库不是大脑。它不知道一份文档真不真。它不知道某条政策昨天改没改。它只是基于向量相似度和你写在外面的过滤逻辑返回候选。

是有用的基础设施。不是完整的 AI 系统。

## 8. Semantic search(语义搜索)

关键词搜索匹配的是词。Semantic search 匹配的是类似"含义"的表示。

所以哪怕用户和文档用词不同,它也能拿到有用结果。这件事很要紧,因为人很少会用你文档里的精确字眼提问。

但 semantic search 不总是比关键词搜索好。有时精确字眼很重要:错误码、API 名、法律条款、版本号、产品 SKU。

这些情况下,纯 semantic search 会漏掉关键词搜索能抓到的东西。

所以很多强检索系统用的是混合搜索。Semantic search 给灵活性。关键词搜索给精度。元数据给约束。重排改善顺序。

搜索不是一招。它是一条 pipeline。

## 9. Retrieval(检索)

检索是指在查询时把外部信息引入系统。

之所以需要它,是因为语言模型有边界。它看不到你的私有数据,除非你给。它不会自动知道训练之后发生了什么。它没法把整个知识库塞进每次请求。

检索是系统在模型回答之前找到相关证据的方式。但检索不只是"搜文档"。它包含切 chunk、建索引、过滤、排序、重排、权限、新鲜度、context 构造。

很多烂答案不是因为模型弱。是因为模型拿到的证据弱:错的 chunk、缺的 chunk、太多的 chunk、过期的 chunk,或者根本没有来源链。

检索的质量经常在模型动笔之前,就把答案的质量定了。

## 10. RAG

RAG 是 Retrieval-Augmented Generation 的缩写。

基本想法很简单:先检索相关信息,再拿这些信息生成答案。这把两件事拆开了。检索器找证据。生成器把证据变成答案。

所以 RAG 对私有文档、新鲜信息、有出处的答案、领域知识都有用。

但 RAG 也是 AI 圈被滥用得最厉害的词之一。它不是简单的"和 PDF 聊天"。它不是 hallucination 的保证修复。它没法让烂文档变可靠。它没法让弱检索变好。

RAG 真正起作用的前提是:对的证据被检索到、被排序、被放进 context、被正确使用。烂检索照样给烂答案。

**RAG 不是真理机器。它是一种设计模式。**

## 11. Prompting

Prompting 是指令层。

它告诉模型你想要什么、它该扮演什么角色、按什么格式、什么约束、模仿什么例子。一个好 prompt 能产生巨大差别。

但 prompt 不是咒语。它不会更新模型权重。它不会补上缺失的知识。它修不好坏掉的检索。它没法让不安全的工具变安全。它替代不了 evaluation。

很多新手就卡在这里。他们一直想用更好的措辞解决系统问题。

有时候问题是 prompt。但很多时候,问题在数据、检索、工具、context、权限或 eval。

Prompting 重要,但它只是一层,不是整个系统。

## 12. Context engineering(上下文工程)

Context engineering 是决定模型该看到什么。

这包括 prompt,也包括检索到的文档、对话历史、工具输出、用户状态、记忆、示例、策略、中间产物。模型只能在它收到的 token 上运转,所以这些 token 的内容、顺序、质量、新鲜度都很要紧。

这就是为什么"用更长的 context window"不够。长 context 给的是容量。Context engineering 给的是相关性。

好系统会问:现在什么有用?什么过期了?什么该总结?什么该检索?什么该藏起来?什么会让模型困惑?

在认真的 AI 系统里,context 是一个工程层面的东西。不是事后补的。

## 13. Tool calling(工具调用)

Tool calling 让模型能和外部系统交互。

模型可以请求计算器、数据库、搜索引擎、code runner、文件查询、日历、CRM、API。但模型通常不直接执行工具。是应用在执行。

模型提议一次 tool call。系统验证它。应用执行它。结果发回给模型。

这个分离很要紧,因为它把权限、数据访问、副作用都留在软件控制下。

一次 tool call 不证明动作发生了。它是一个请求。应用仍然负责验证、授权、执行、重试和错误处理。

模型可以请求。系统必须决定。

## 14. Function calling

**Function calling 是结构化的 tool calling。**

模型不再返回一段松散文本,而是返回符合某个 schema 的参数。比如:function get_weather, location Mumbai, unit celsius。

这种结构让软件更容易解析、验证、路由、测试和拒绝。这就是 function calling 在生产系统里的价值。

自由文本是灵活的。结构化输出是可控的。

但同一条规则仍然适用:function call 不代表函数已经跑过了。它是一个结构化请求。应用仍然要决定要不要执行、怎么执行。

Schema 在前。执行在后。这是生产心智。

## 15. Agents

"Agent" 是 AI 里被拉得最长的词之一。

我自己实用的理解:agent 是一个能循环的系统。它能 plan、调用工具、观察结果、更新状态、决定下一步。

这个循环就是它和单次 prompt-response 的差别。但自主性是个光谱。很多有用的 agent 并不完全自主。它们是有边界的系统:工具有限、目标窄、停止条件清晰、有风险动作时需要人审批。

这往往才是更好的。

而且,agent 不会自动跨 session 记住一切。持久记忆得显式设计:存什么、什么时候检索、怎么更新、什么时候忽略。

好 agent 强大不是因为它能做任何事。它有用是因为它能在正确的边界里做正确的事。

难的不是给模型工具。难的是控制这些工具怎么被使用。

## 16. Fine-tuning

Fine-tuning 改变模型。Prompting 改变输入。

这一个区分能澄清很多事。

Fine-tuning 从一个预训练模型出发,继续在更窄的任务或领域示例上训练它。它对重复出现的 pattern 有用:tone、术语、分类、格式、领域行为或任务执行。

但 fine-tuning 不是所有 AI 问题的答案。如果模型缺新鲜知识,检索可能更好。如果问题是输出结构,prompting 或 function calling 可能就够。如果问题是安全,你需要 guardrail 和 eval。

很多人把 fine-tuning 和 alignment 混淆,也是在这里。**搭一个 assistant 的常见流水线是:**
pretraining → supervised fine-tuning → reward modeling → RL optimization

预训练给模型宽广的能力。Supervised fine-tuning 用精选样本教它跟随指令。RLHF 再用人类偏好反馈精修行为。RLAIF 是一个相关思路,让 AI 反馈替代或补充人类反馈。

所以有用的心智模型是:fine-tuning 调整行为,instruction tuning 教响应格式和合规,RLHF/RLAIF 精修对齐。它们相关,但不是同一回事。

## 17. LoRA

LoRA 是 Low-Rank Adaptation 的缩写。

它是一种参数高效的大模型适配方法。LoRA 不更新所有模型权重,而是冻结基础模型,只在选定层里训练小的低秩矩阵。

这把可训练参数的数量大幅降下来。更少内存、更少算力、更快实验。

基础模型基本保持原样。Adapter 承载任务专属的变化。这就是 LoRA 在开源模型工作流里这么火的原因。它让"适配"变实用了。

核心想法很简单:你常常不需要把整个模型搬走,才能改变有用的行为。一个学到的小更新就够。

## 18. Quantization(量化)

**量化通过降低数值精度,让模型跑起来更便宜。**

不再用高精度的数表示权重或激活,而是用更低精度的格式:FP32 到 FP16、FP16 到 INT8,有时到 4-bit。

好处很实在:内存更小、带宽更低、有时推理更快、部署更便宜。

但代价不是均匀的。大模型有时能在很激进的量化下表现得意外地好。小模型在同样精度下可能丢失更多质量。方法、硬件、校准数据、模型大小、任务都要紧。

量化不教模型新行为。它改的是模型的数字怎么被表示。

不是更聪明。是更好部署。

而在真实产品里,"好部署"这件事本身就要紧。

## 19. Distillation(蒸馏)

**蒸馏训练一个小模型去模仿一个更强的模型。**

大模型是 teacher。小模型是 student。Student 从 teacher 的输出、标签、概率分布或生成的推理轨迹里学。

目标通常是效率。一个小模型可以更便宜、更快、更容易部署、对某个具体用例足够好。

在现代 LLM 工作流里,蒸馏经常也意味着用一个更强的模型生成合成训练数据,再用来训小模型。同样的大思路:把有用行为从更强的系统迁到更便宜的系统。

但蒸馏不是完美复制。Student 可能丢掉广度、罕见能力,或者 teacher 处理得了的边界情况。

有用的问题不是:student 跟 teacher 一样强吗?

有用的问题是:在这个成本下,它对这件事够用吗?

蒸馏在这个问题上变成工程。

## 20. Inference(推理)

Inference 是训练好的模型被使用的过程。

训练更新权重。Inference 使用权重。对一个 LLM 来说,inference 就是读 context、算 token 概率、选 token、一步一步生成输出。

这是产品现实出现的地方。延迟要紧。成本要紧。吞吐要紧。硬件要紧。Context 长度要紧。Caching 要紧。Batching 要紧。工具延迟要紧。

一个模型可能在 benchmark 或 demo 上看着惊艳,仍然太慢、太贵、太不稳,没法上真实产品。

训练造出能力。Inference 决定那种能力能不能真的交付到用户手里。

## 21. Evals(评估)

Eval 是你停止凭感觉判断 AI 的方式。

它们测试模型或系统的行为是不是符合预期。一个好 eval 可以衡量准确度、格式、风格、检索质量、工具使用、grounding、安全、延迟或任务成功率。

最好的 eval 看起来像真实使用:真实问题、真实边界情况、清晰的标准、可重复的打分。不是精挑的 demo。不是玩具示例。

Eval 在有变更时最要紧:新模型、新 prompt、新检索器、新切分策略、新工具、新 guardrail。

好 eval 不证明系统完美。它减少无知。

这本身就是很认真的进步。

## 22. Hallucination(幻觉)

Hallucination 是听起来合理、但没有支撑或不正确的输出。

"听起来合理"才是问题。模型可以同时是流畅的、自信的、结构化的,并且是错的。

Hallucination 可以表现为:假引用、瞎编的事实、错误的计算、虚构的 API、错误的总结,或者对工具结果的误读。

这件事会发生,是因为模型在生成"可能的文本"。它不会自动验证真伪。

你用检索、grounding、工具、validation、eval 和人工审查降低 hallucination 风险。但你没法完全消除。

我反复回到的一条规则:"fluency is not evidence. Confidence is not correctness."(流畅不是证据,自信不是正确)

## 23. Grounding(接地)

Grounding 把答案和证据连起来。

证据可以来自文档、数据库、网页搜索、工具输出、日志、引用或计算。

Grounding 让你能问:这个答案是哪来的?我能验证吗?证据相关吗?模型用对了吗?

Grounding 比 RAG 更宽。RAG 通过检索到的文本 ground。工具能通过实时数据 ground。数据库能通过记录 ground。计算器能通过计算 ground。

但 grounding 只在证据真实、相关、可见的时候有用。一个不支撑答案的引用不是 grounding。是装饰。

Grounding 改善可追溯性。它不会让系统变完美。

## 24. Guardrails

Guardrail 是 AI 系统周围的控制。

它们可以作用在输入、输出、tool call、数据访问、权限、schema 和工作流步骤上。

弱的 guardrail 策略是在最后加一个安全过滤器。强的策略是分层的:

→ 用户能问什么?
→ 模型能看到什么数据?
→ 它能调哪些工具?
→ 允许什么参数?
→ 哪些动作要审批?
→ 什么输出算合法?
→ 什么需要被记录?

Guardrail 降低风险。它们不会让系统刀枪不入。它们也带来权衡。

太松,系统就有风险。太紧,系统就让人窝火。

好 guardrail 不是装饰。它是产品设计。

## 25. Observability(可观测性)

Observability 意味着看见你的 AI 系统真正做了什么。

不只是最终答案。整次运行的全过程。

用了什么 prompt?检索到了哪些文档?哪些 chunk 被选了?调用了哪个工具?传了什么参数?工具返回了什么?每一步耗时多少?系统在哪里失败了?用户接下来做了什么?

这件事要紧,是因为 AI 失败常常藏在中间。模型可能不是问题。检索器可能取错了文档。工具可能返回了过期数据。Context 可能被污染了。Guardrail 可能挡错了东西。

没有 observability,你只能凭感觉调试。有 observability,你才能调试系统。

生产 AI 需要的是 trace,不是截图。

---

我现在对现代 AI 最简单的理解:

模型只是其中一层。

> Token 定义它处理的是什么。
> Decoding 控制它说话的形态。
> Context 决定它能用什么。
> Attention 帮它在信息之间建立连接。
> Transformer 让 scaling 变实用。
> Embedding 让相似度可搜索。
> Retrieval 把外部知识带进来。
> RAG 把证据和生成结合起来。
> Prompt 引导行为。
> Context engineering 决定模型看到什么。
> 工具把它和软件连起来。
> Function calling 让那些连接结构化。
> Agent 把模型调用变成循环。
> Fine-tuning 和 LoRA 调整行为。
> Quantization 和 distillation 让部署变实用。
> Inference 把能力变成产品体验。
> Eval 衡量质量。
> Grounding 把答案绑到证据上。
> Guardrail 降低风险。
> Observability 让你看见真正发生了什么。

AI 不再只是关于"怎么向模型问更好的问题"。它关乎在模型周围搭建更好的系统。

而一旦你看见了这个系统,那套词汇才真正讲得通。

感谢阅读。结束撒花!!!!