25 个常被挂在嘴上、但没几个人真懂的 AI 概念

作者: @techNmak 发布: 2026-05-25 原文: https://x.com/techNmak/status/2058886981090951627

Cover

AI 在大多数人搞清它的词汇之前，就成了主流。

所以你听到的很多 AI 对话，听起来很自信，其实模糊。大家把 "token"、"embedding"、"RAG"、"agent"、"LoRA"、"eval"、"guardrail" 挂在嘴上，仿佛每个人对这些词的理解都一样。

绝大多数时候，并不一样。

这个差距很要紧，因为这些不是花哨的术语。它们是机器的零件。

不懂 token，就不懂 context。不懂 embedding，就不懂 semantic search。不懂 RAG，就会高估检索能修的东西。不懂 agent，就会把自主和循环搞混。不懂 eval，就只能凭感觉评判 AI 系统。

所以我想写一份我自己会收藏的指南。

对新手够清晰。对工程师够准确。回头还能再翻。

下面是 25 个让现代 AI 没那么晕的概念。

1. Tokens

关于 LLM，要懂的第一件事：它处理文本的方式，跟我们读文本的方式不一样。 它处理的是 token。

一个 token 可以是完整的词、词的一部分、标点、空格，或者特殊符号。所以一个词不一定等于一个 token。

这个小细节几乎决定了一切——context 长度、成本、延迟、截断、生成。当你发一段 prompt 过去，模型看到的不是"一段话"。它看到的是一串 token ID。

那串 ID 才是模型的原料。所以在搞 context window、定价、生成之前，得先搞懂 token。它们是这个系统里最小的实用单位。

2. Next-token prediction（下一个 token 预测）

说到底，语言模型一直在问同一个问题——下一个 token 该是什么？

它读当前的 context，给所有可能的下一个 token 算出一个概率分布。 选一个 token，加回 context 里，重复这个过程。一段完整的回答就这么出来——不是一次性的，是一个 token 一个 token 长出来的。

这也是为什么同一个 prompt 有时候给出不同答案。模型可能给好几条合理的延续都分了概率。是 decoding 策略决定走哪条。

Temperature 控制概率分布的尖锐还是平坦。 低 temperature 让模型更保守。高 temperature 让它更多变，但有时不稳。Top-k 把采样限制在概率最高的 k 个 token 里。Top-p（也叫 nucleus sampling）保留一组 token，让它们的概率累加刚好越过设定的阈值。

这些参数不会改变模型学到的东西。它们只改变模型怎么从已有的可能里做选择。

所以下次你觉得一段答案像"在写作"，记住底下发生的事——模型在一步一步把序列长出来。

3. Context window

Context window 是模型一次运行能用的信息。

它可以装 system prompt、用户消息、对话历史、检索到的文档、工具调用结果、记忆片段、示例、约束。但 context 经常被误解。

更大的 context window 有用，但不自动等于更好。 如果你给模型一堆乱、过期、重复或不相关的信息，问题不会消失。你只是把问题搬进了 prompt。

还有质量上的影响：埋在很长 context 中段的信息，被注意到的可靠性比开头或结尾低。

更准的心智模型是：context 是工作记忆。不是存储，不是真理，不是永久知识。只是模型此刻能用的信息。

好的 AI 系统会精挑什么进得了这个空间。它们不会一股脑塞进去，指望模型自己理清楚。

4. Attention

Attention 是让现代语言模型在大规模上 work 的关键想法之一。

简单版：token 可以从其他 token 那里加权吸收信息。 这让模型能建立对上下文敏感的表示。"Bank" 挨着 "river" 和 "bank" 挨着 "loan" 应该表现不同。Attention 帮模型造出这个差别。

但对现代 decoder-only 的 LLM 来说，有一条重要约束：causal self-attention（因果自注意力）。每个 token 只能 attend 它前面的 token，不能看后面的。这个未来 token mask 保住了 autoregressive 生成。模型不能偷看还没生成的 token。

所以 attention 不是"模型像人一样在理解"。它是一种在可见 context 里路由信息的机制。强大，但仍然只是机制。

5. Transformers

Transformer 是现在大多数文本 LLM 背后的架构。

最初的突破是把 attention 当成核心操作，不再依赖 recurrence 或 convolution 来做序列建模。一个 transformer block 通常包含 attention、前馈层、残差连接、归一化。把很多这样的 block 叠起来，大规模训练，就有了现代语言模型的骨架。

有一个细节要注意——transformer 在训练和处理 prompt 时可以并行处理输入 token，但生成仍然是 autoregressive 的。模型还是一个 token 一个 token 地输出。

所以 "Transformer" 不是某一个模型，也不是某家公司的产品。它是一族架构，是现代 LLM 能做大规模的原因。

6. Embeddings

Embedding 把数据变成向量。

文本能变向量。代码能变向量。图像和音频也能。它有用的属性是相似度：如果两段内容相关，它们的向量可能落得很近。

semantic search 就是这么成立的。"how do I make my site faster?" 这样一句查询，能匹配到讲 "page load optimization" 的文档，哪怕字面上完全不重叠。

但 embedding 不是魔法意义。它们是学到的表示。保留某些关系，丢失另一些。

适合产品搜索的 embedding 模型，不一定适合法律文档。适合英文支持文档的，不一定适合代码。

真正要问的不是：我们用没用 embedding？

真正要问的是：这套 embedding 对这个任务有用吗？

7. Vector databases（向量数据库）

向量数据库存 embedding，并能高效地检索附近的向量。

常见流程很简单：把文档切成 chunk、生成 embedding、连同元数据一起存、把用户查询也 embed、搜附近的向量、返回可能的匹配。

听上去很干净。麻烦的是周围的一切。

文档怎么切的 chunk？元数据保留了吗？过期文档过滤掉了吗？权限尊重了吗？精确字段处理了吗？结果重排了吗？

向量数据库不是大脑。它不知道一份文档真不真。它不知道某条政策昨天改没改。它只是基于向量相似度和你写在外面的过滤逻辑返回候选。

是有用的基础设施。不是完整的 AI 系统。

8. Semantic search（语义搜索）

关键词搜索匹配的是词。Semantic search 匹配的是类似"含义"的表示。

所以哪怕用户和文档用词不同，它也能拿到有用结果。这件事很要紧，因为人很少会用你文档里的精确字眼提问。

但 semantic search 不总是比关键词搜索好。有时精确字眼很重要：错误码、API 名、法律条款、版本号、产品 SKU。

这些情况下，纯 semantic search 会漏掉关键词搜索能抓到的东西。

所以很多强检索系统用的是混合搜索。Semantic search 给灵活性。关键词搜索给精度。元数据给约束。重排改善顺序。

搜索不是一招。它是一条 pipeline。

9. Retrieval（检索）

检索是指在查询时把外部信息引入系统。

之所以需要它，是因为语言模型有边界。它看不到你的私有数据，除非你给。它不会自动知道训练之后发生了什么。它没法把整个知识库塞进每次请求。

检索是系统在模型回答之前找到相关证据的方式。但检索不只是"搜文档"。它包含切 chunk、建索引、过滤、排序、重排、权限、新鲜度、context 构造。

很多烂答案不是因为模型弱。是因为模型拿到的证据弱：错的 chunk、缺的 chunk、太多的 chunk、过期的 chunk，或者根本没有来源链。

检索的质量经常在模型动笔之前，就把答案的质量定了。

10. RAG

RAG 是 Retrieval-Augmented Generation 的缩写。

基本想法很简单：先检索相关信息，再拿这些信息生成答案。这把两件事拆开了。检索器找证据。生成器把证据变成答案。

所以 RAG 对私有文档、新鲜信息、有出处的答案、领域知识都有用。

但 RAG 也是 AI 圈被滥用得最厉害的词之一。它不是简单的"和 PDF 聊天"。它不是 hallucination 的保证修复。它没法让烂文档变可靠。它没法让弱检索变好。

RAG 真正起作用的前提是：对的证据被检索到、被排序、被放进 context、被正确使用。烂检索照样给烂答案。

RAG 不是真理机器。它是一种设计模式。

11. Prompting

Prompting 是指令层。

它告诉模型你想要什么、它该扮演什么角色、按什么格式、什么约束、模仿什么例子。一个好 prompt 能产生巨大差别。

但 prompt 不是咒语。它不会更新模型权重。它不会补上缺失的知识。它修不好坏掉的检索。它没法让不安全的工具变安全。它替代不了 evaluation。

很多新手就卡在这里。他们一直想用更好的措辞解决系统问题。

有时候问题是 prompt。但很多时候，问题在数据、检索、工具、context、权限或 eval。

Prompting 重要，但它只是一层，不是整个系统。

12. Context engineering（上下文工程）

Context engineering 是决定模型该看到什么。

这包括 prompt，也包括检索到的文档、对话历史、工具输出、用户状态、记忆、示例、策略、中间产物。模型只能在它收到的 token 上运转，所以这些 token 的内容、顺序、质量、新鲜度都很要紧。

这就是为什么"用更长的 context window"不够。长 context 给的是容量。Context engineering 给的是相关性。

好系统会问：现在什么有用？什么过期了？什么该总结？什么该检索？什么该藏起来？什么会让模型困惑？

在认真的 AI 系统里，context 是一个工程层面的东西。不是事后补的。

13. Tool calling（工具调用）

Tool calling 让模型能和外部系统交互。

模型可以请求计算器、数据库、搜索引擎、code runner、文件查询、日历、CRM、API。但模型通常不直接执行工具。是应用在执行。

模型提议一次 tool call。系统验证它。应用执行它。结果发回给模型。

这个分离很要紧，因为它把权限、数据访问、副作用都留在软件控制下。

一次 tool call 不证明动作发生了。它是一个请求。应用仍然负责验证、授权、执行、重试和错误处理。

模型可以请求。系统必须决定。

14. Function calling

Function calling 是结构化的 tool calling。

模型不再返回一段松散文本，而是返回符合某个 schema 的参数。比如：function get_weather, location Mumbai, unit celsius。

这种结构让软件更容易解析、验证、路由、测试和拒绝。这就是 function calling 在生产系统里的价值。

自由文本是灵活的。结构化输出是可控的。

但同一条规则仍然适用：function call 不代表函数已经跑过了。它是一个结构化请求。应用仍然要决定要不要执行、怎么执行。

Schema 在前。执行在后。这是生产心智。

15. Agents

"Agent" 是 AI 里被拉得最长的词之一。

我自己实用的理解：agent 是一个能循环的系统。它能 plan、调用工具、观察结果、更新状态、决定下一步。

这个循环就是它和单次 prompt-response 的差别。但自主性是个光谱。很多有用的 agent 并不完全自主。它们是有边界的系统：工具有限、目标窄、停止条件清晰、有风险动作时需要人审批。

这往往才是更好的。

而且，agent 不会自动跨 session 记住一切。持久记忆得显式设计：存什么、什么时候检索、怎么更新、什么时候忽略。

好 agent 强大不是因为它能做任何事。它有用是因为它能在正确的边界里做正确的事。

难的不是给模型工具。难的是控制这些工具怎么被使用。

16. Fine-tuning

Fine-tuning 改变模型。Prompting 改变输入。

这一个区分能澄清很多事。

Fine-tuning 从一个预训练模型出发，继续在更窄的任务或领域示例上训练它。它对重复出现的 pattern 有用：tone、术语、分类、格式、领域行为或任务执行。

但 fine-tuning 不是所有 AI 问题的答案。如果模型缺新鲜知识，检索可能更好。如果问题是输出结构，prompting 或 function calling 可能就够。如果问题是安全，你需要 guardrail 和 eval。

很多人把 fine-tuning 和 alignment 混淆，也是在这里。搭一个 assistant 的常见流水线是： pretraining → supervised fine-tuning → reward modeling → RL optimization

预训练给模型宽广的能力。Supervised fine-tuning 用精选样本教它跟随指令。RLHF 再用人类偏好反馈精修行为。RLAIF 是一个相关思路，让 AI 反馈替代或补充人类反馈。

所以有用的心智模型是：fine-tuning 调整行为，instruction tuning 教响应格式和合规，RLHF/RLAIF 精修对齐。它们相关，但不是同一回事。

17. LoRA

LoRA 是 Low-Rank Adaptation 的缩写。

它是一种参数高效的大模型适配方法。LoRA 不更新所有模型权重，而是冻结基础模型，只在选定层里训练小的低秩矩阵。

这把可训练参数的数量大幅降下来。更少内存、更少算力、更快实验。

基础模型基本保持原样。Adapter 承载任务专属的变化。这就是 LoRA 在开源模型工作流里这么火的原因。它让"适配"变实用了。

核心想法很简单：你常常不需要把整个模型搬走，才能改变有用的行为。一个学到的小更新就够。

18. Quantization（量化）

量化通过降低数值精度，让模型跑起来更便宜。

不再用高精度的数表示权重或激活，而是用更低精度的格式：FP32 到 FP16、FP16 到 INT8，有时到 4-bit。

好处很实在：内存更小、带宽更低、有时推理更快、部署更便宜。

但代价不是均匀的。大模型有时能在很激进的量化下表现得意外地好。小模型在同样精度下可能丢失更多质量。方法、硬件、校准数据、模型大小、任务都要紧。

量化不教模型新行为。它改的是模型的数字怎么被表示。

不是更聪明。是更好部署。

而在真实产品里，"好部署"这件事本身就要紧。

19. Distillation（蒸馏）

蒸馏训练一个小模型去模仿一个更强的模型。

大模型是 teacher。小模型是 student。Student 从 teacher 的输出、标签、概率分布或生成的推理轨迹里学。

目标通常是效率。一个小模型可以更便宜、更快、更容易部署、对某个具体用例足够好。

在现代 LLM 工作流里，蒸馏经常也意味着用一个更强的模型生成合成训练数据，再用来训小模型。同样的大思路：把有用行为从更强的系统迁到更便宜的系统。

但蒸馏不是完美复制。Student 可能丢掉广度、罕见能力，或者 teacher 处理得了的边界情况。

有用的问题不是：student 跟 teacher 一样强吗？

有用的问题是：在这个成本下，它对这件事够用吗？

蒸馏在这个问题上变成工程。

20. Inference（推理）

Inference 是训练好的模型被使用的过程。

训练更新权重。Inference 使用权重。对一个 LLM 来说，inference 就是读 context、算 token 概率、选 token、一步一步生成输出。

这是产品现实出现的地方。延迟要紧。成本要紧。吞吐要紧。硬件要紧。Context 长度要紧。Caching 要紧。Batching 要紧。工具延迟要紧。

一个模型可能在 benchmark 或 demo 上看着惊艳，仍然太慢、太贵、太不稳，没法上真实产品。

训练造出能力。Inference 决定那种能力能不能真的交付到用户手里。

21. Evals（评估）

Eval 是你停止凭感觉判断 AI 的方式。

它们测试模型或系统的行为是不是符合预期。一个好 eval 可以衡量准确度、格式、风格、检索质量、工具使用、grounding、安全、延迟或任务成功率。

最好的 eval 看起来像真实使用：真实问题、真实边界情况、清晰的标准、可重复的打分。不是精挑的 demo。不是玩具示例。

Eval 在有变更时最要紧：新模型、新 prompt、新检索器、新切分策略、新工具、新 guardrail。

好 eval 不证明系统完美。它减少无知。

这本身就是很认真的进步。

22. Hallucination（幻觉）

Hallucination 是听起来合理、但没有支撑或不正确的输出。

"听起来合理"才是问题。模型可以同时是流畅的、自信的、结构化的，并且是错的。

Hallucination 可以表现为：假引用、瞎编的事实、错误的计算、虚构的 API、错误的总结，或者对工具结果的误读。

这件事会发生，是因为模型在生成"可能的文本"。它不会自动验证真伪。

你用检索、grounding、工具、validation、eval 和人工审查降低 hallucination 风险。但你没法完全消除。

我反复回到的一条规则："fluency is not evidence. Confidence is not correctness."（流畅不是证据，自信不是正确）

23. Grounding（接地）

Grounding 把答案和证据连起来。

证据可以来自文档、数据库、网页搜索、工具输出、日志、引用或计算。

Grounding 让你能问：这个答案是哪来的？我能验证吗？证据相关吗？模型用对了吗？

Grounding 比 RAG 更宽。RAG 通过检索到的文本 ground。工具能通过实时数据 ground。数据库能通过记录 ground。计算器能通过计算 ground。

但 grounding 只在证据真实、相关、可见的时候有用。一个不支撑答案的引用不是 grounding。是装饰。

Grounding 改善可追溯性。它不会让系统变完美。

24. Guardrails

Guardrail 是 AI 系统周围的控制。

它们可以作用在输入、输出、tool call、数据访问、权限、schema 和工作流步骤上。

弱的 guardrail 策略是在最后加一个安全过滤器。强的策略是分层的：

→ 用户能问什么？ → 模型能看到什么数据？ → 它能调哪些工具？ → 允许什么参数？ → 哪些动作要审批？ → 什么输出算合法？ → 什么需要被记录？

Guardrail 降低风险。它们不会让系统刀枪不入。它们也带来权衡。

太松，系统就有风险。太紧，系统就让人窝火。

好 guardrail 不是装饰。它是产品设计。

25. Observability（可观测性）

Observability 意味着看见你的 AI 系统真正做了什么。

不只是最终答案。整次运行的全过程。

用了什么 prompt？检索到了哪些文档？哪些 chunk 被选了？调用了哪个工具？传了什么参数？工具返回了什么？每一步耗时多少？系统在哪里失败了？用户接下来做了什么？

这件事要紧，是因为 AI 失败常常藏在中间。模型可能不是问题。检索器可能取错了文档。工具可能返回了过期数据。Context 可能被污染了。Guardrail 可能挡错了东西。

没有 observability，你只能凭感觉调试。有 observability，你才能调试系统。

生产 AI 需要的是 trace，不是截图。

我现在对现代 AI 最简单的理解：

模型只是其中一层。

Token 定义它处理的是什么。 Decoding 控制它说话的形态。 Context 决定它能用什么。 Attention 帮它在信息之间建立连接。 Transformer 让 scaling 变实用。 Embedding 让相似度可搜索。 Retrieval 把外部知识带进来。 RAG 把证据和生成结合起来。 Prompt 引导行为。 Context engineering 决定模型看到什么。工具把它和软件连起来。 Function calling 让那些连接结构化。 Agent 把模型调用变成循环。 Fine-tuning 和 LoRA 调整行为。 Quantization 和 distillation 让部署变实用。 Inference 把能力变成产品体验。 Eval 衡量质量。 Grounding 把答案绑到证据上。 Guardrail 降低风险。 Observability 让你看见真正发生了什么。

AI 不再只是关于"怎么向模型问更好的问题"。它关乎在模型周围搭建更好的系统。

而一旦你看见了这个系统，那套词汇才真正讲得通。

感谢阅读。结束撒花！！！！