30 天精通 AI：一份 2026 年的可执行计划

# 30 天精通 AI：一份 2026 年的可执行计划

> **作者**: [@sopersone](https://x.com/sopersone)
> **发布**: 2026-05-25
> **原文**: https://x.com/sopersone/status/2058852552620323043

![封面](https://pbs.twimg.com/media/HJKDX09X0AAYajb.jpg)

想象一下一年后的两个你。

第一个还在把同一份简历投给几十家公司，看着 AI 重塑行业，心里想着"等我有时间一定要好好搞懂这玩意"。

第二个在以 200 美元/小时的价格做 AI 落地咨询，做着一年前还不存在的工具，因为需求超过产能而在拒客户。

同一个起点。不同的轨迹。而那个分岔口就在接下来的 30 天里。

这套计划叫 **Operator Toolkit** —— 一个特定的顺序，技能按"复利最大化"的逻辑递进堆叠：每一阶段解锁下一阶段。到第 31 天，你不只是在"用 AI"，你在把它当作基础设施部署。

这不是那种你会收藏起来然后忘掉的工具盘点。不是教去年技术的课程。也不是听起来挺聪明但什么都给不了你的理论。

这是从"信息过载"到"具体结果"的过渡 —— 每天 2 到 3 小时，30 天。

### 大多数 AI 培训项目犯的错

它们先教工具，再教思考。结果你最后只是背了一堆套路，没有形成直觉。

我们反过来。

---

## 改变一切的心智模型

一旦内化了它 —— 你看 AI 的眼光就再也回不去了。

### 为什么有的 prompt 有效，有的不行

当你写 "the bank was cool" —— 模型必须做选择：钱（银行），还是河岸？Attention 机制通过对周围词加权来解决这个歧义。它一直在问："什么 context 能帮我理解这个词？"

这一条解释了 80% 的情况：有些 prompt 给你的正是你想要的，类似的另一些却完全胡说八道。差别几乎都在于上下文清晰度。给清楚 context —— 模型做出更好的决策。不给 —— 它就靠猜。

### Token、窗口和钱

一个 token 大约是 3.5 个字符或 0.75 个词。你按 token 付费，触发的限额也按 token 算。

Context window 是模型的工作记忆：它一次性能装在脑子里的全部文本。Sonnet 4.6 和 Opus 4.6 目前是 100 万 token —— 大约 75 万词，相当于一整个代码库。以前需要把文档切片、然后忍受片段之间失去连贯性的任务，现在可以一次性处理。

### 大多数人从不去碰的那个参数

Temperature 控制随机性：0 到 1 的刻度。0 —— 每次都给最有把握的答案。1 —— 创造性冒险。

低 temperature 适合事实查询和分析。高 —— 当你需要意外的想法时。

自己测一下：在 temperature 0 跑同一个 prompt 两次 —— 你会得到几乎相同的结果。然后跑 1 —— 差异会很显著。大多数人从不动这个参数，然后困惑为什么结果不可预测。

### 为什么 AI 会瞎编，以及该怎么办

下面这点反直觉：AI 不知道什么是真。

模型基于 pattern 预测下一段文本是什么。不管事实还是虚构，都存在"听起来挺有把握"的 pattern —— 模型会以同样的自信再现这两种。AI 生成的引用里近一半是部分或完全编造的：作者、期刊名、URL —— 都可能根本不存在。

解决办法不是等一个补丁。Hallucination 是这个架构的结构性属性，不是 bug。

有用的做法：核实具体说法、事实任务用低 temperature、要求模型承认不确定性、搭建把答案接地到真实文档的 RAG 系统。RAG 后面会讲。

---

## 2026 模型地图

"哪个 AI 最好？"是个错的问题。对的问题是："我要做什么？"

最好的模型随任务而变。用错的那个，就像拿螺丝刀拧螺栓：技术上能做，但慢得难受。

### Claude（Anthropic）：三个强项

- **Coding** —— 推荐已经变了。Sonnet 4.6 以五分之一的成本（每百万 token $3/$15 vs Opus 的 $15/$75）交付 Opus 98% 的编码质量。绝大多数任务 —— 写函数、重构、debug —— 质量差异感知不到。Opus 4.6 和新的 Opus 4.7 只有在 agentic pipeline、复杂多步任务、海量代码库分析这几种场景才值得。
- **营销和长文写作** —— 因为 Claude 的训练方式，它对 brand voice 和细微差别的把握比其他模型更好。把同一份 brief 喂给不同模型 —— Claude 始终能产出听起来像人写的、而不是一眼 AI 的文案。
- **表格和商业分析** —— Claude 的 Excel 集成能处理多 tab 工作簿、用单元格引用解释计算、修公式错误。如果你每周在表格里花一小时以上 —— 光凭这一项订阅费就值回来了。

### Gemini 3.1 Pro（Google）：研究领头羊

2026 年 2 月发布，基于 Gemini 3 Pro。Context window —— 100 万 token。定价 —— 每百万 token $2/$12，大约是 Sonnet 一半的成本，编码质量相当。

主要优势 —— 内建的 Google Search 集成：能拿到当前信息，不用担心训练后事件被 hallucinate。研究任务、长文档、最新数据 —— 不二之选。

### GPT-5.4（OpenAI）：一个有用的参照点

情况和去年不同了。前六的领先模型现在在关键 benchmark 上互相只差 1–2%。GPT-5.4 在终端任务和原生计算机控制上特别强。理解输出质量从平庸到优秀的整个光谱，能帮你避开前者。

### Grok：实时社交数据分析

需要了解 X 上此刻在发生什么、内容限制更少 —— Grok。用例很窄，但没有别的工具能像它那样处理这件事。

### 决策框架

别再问"哪个 AI 最好？"开始问"我要做什么？"

- 编码和技术任务 → Sonnet 4.6（复杂 agentic 场景用 Opus 4.6/4.7）
- 需要最新数据的研究 → Gemini 3.1 Pro
- 长文档和分析 → Gemini 3.1 Pro（100 万 context）
- 营销文案和 brand voice → Claude
- 表格 → Claude + Excel 集成
- 社媒分析 → Grok
- 图像生成 → Nano Banana Pro → Nano Banana 2
- 视频生成 → Veo 3.1 或 Kling 2.6/3.0

这个框架消除了大多数人在模型之间反复切换、却没有一个练到精的"选择瘫痪"。

---

# 2026 年的 Prompt Engineering

### 忘掉那些花哨技巧

规则变了。清晰胜过聪明。结果属于那些像称职专业人士、而不是像念咒一样写 brief 的人。

### 给模型用的格式

Claude 是用 XML 标签训练的 —— 它对这种结构响应特别好：

```xml
<context>
背景信息写这里
</context>

<task>
具体指令写这里
</task>

<format>
输出该怎么组织
</format>
```

GPT 和 Gemini 处理结构化数据时 JSON 表现很好。简单查询用纯文本。Markdown 是个非常好的通用选择。

格式不是魔法 —— 它是给模型清晰信号的方式。XML 标签像文档里的章节标题：减少歧义，模型回报你以质量。

### 复杂任务用 Chain of Thought

在复杂任务要求答案前加上"let's work through this step by step"。这不是安慰剂：在数学、逻辑、多步分析、debug 上有可测量的提升。简单问题就别加了，多余的推理什么也加不上。

### System Prompt 公式

把通用 AI 变成专门助手的四个要素：

- **Role**："You are a senior financial analyst specializing in technology company valuation"
- **Behavior**："ask clarifying questions before making assumptions; acknowledge uncertainty"
- **Constraints**："do not provide specific investment recommendations"
- **Output format**："begin with a two-sentence summary, then provide supporting analysis"

一段写得好的 system prompt 给你专属工作流的一个专门助手。写一次 —— 用几百次。

---

# Context Engineering：真正的杠杆所在

Prompt engineering 是 2024–2025 的必备技能。

Context engineering 是 2025–2026 的技能。

这个迁移承认了一个事实：单个 prompt 的重要性，不如你围绕这次 AI 交互所搭建的"信息环境"。这就是 Operator Toolkit 和那种表层培训分道扬镳的地方：大多数课程到 prompt 就停了，但那些每小时收 $200+ 的人早就转向 context architecture 了。

### 四种策略

- **Write** —— 把 context 存在活动窗口外，通过临时文件和 AI 能访问的引用文档。
- **Select** —— 不要全都加载，通过 RAG 和动态查询取需要的部分。
- **Compress** —— 把详细信息总结后再放进 context。
- **Isolate** —— 把不兼容的 context 分流到不同的对话分支或子 agent。

### Claude Projects 的实战

在 claude.ai 上建一个 project，上传相关文档，写自定义指令 —— 那个 project 里的每一次对话都自动看到整个知识库。

大多数人会错过的关键洞察：一个为某项具体任务建的窄 project，比一个什么都装的大 project 更好用。一个有示例和报价的"客户提案" project，比一个塞了几百份文件、彼此抢注意力的"工作杂事" project 有效得多。

### 给非程序员的 RAG

RAG 是 Retrieval Augmented Generation。听起来复杂 —— 想法很简单：回答之前，系统在你的文档里搜相关内容，然后把它放进 context。模型基于你的真实数据回答，不是基于训练集。具体工作话题上的 hallucination 几乎消失。

NotebookLM（Google）—— 不写一行代码的免费 RAG。上传 PDF、文档、YouTube 视频 —— 你就有了一个能引用来源的、对那批内容的专家。从零到能用不到一小时。

Claude Projects 作为替代 —— 当你不只是要查知识库，还需要生成文档和代码时，它更灵活。

---

# 图像生成

### Nano Banana Pro：当前的标准

Nano Banana Pro 是 Google DeepMind 的 Gemini 3 Pro Image 的官方名字，2025 年 11 月发布。基于 Gemini 3 Pro，能调真正的 Google Search。

它做对了什么：

- **准确的文字渲染** —— 多年来 AI 没法在图像里可靠地渲染文字。Nano Banana Pro 能按指定风格生成正确的文字。光这一项能力就解锁了以前不可能的用例：信息图、海报、有大标题的图片。
- **生成前的场景推理** —— 模型在生成前分析构图、光线和物体关系。结果看起来是有意为之的，不是随机的。
- **靠搜索保证事实准确** —— 在真实主题上做信息图，不会编造数据。
- **Nano Banana 2（Gemini 3.1 Flash Image）** —— Flash 速度的新版：更快、更便宜，多数任务质量接近 Pro。迭代和草稿的好起点。

### 能用的 prompt 结构

忘掉那一套塞 "4k, trending on Artstation, masterpiece" 的老办法。这个模型懂自然语言。

结构：主体加细节 → 动作 → 环境 → 构图说明 → 光照 → 文字要求。

例子："minimalist thriller movie poster, title 'Silent Echo' in distressed sans-serif at the top, abandoned cabin in a snowy forest, aerial view, high-contrast black and white, title clearly legible and centered."

具体性才管用：描述你要的结果，不要指望 AI 和你品味一样。

### 其他工具

- Midjourney V7 在艺术和电影感作品上仍领先 —— 风格化、艺术作品、不追求写实的场景。
- Flux —— 想本地跑生成的人用的开源选项。

---

# 视频生成：生产级用例已经存在

实话：AI 视频 demo 看着很惊人，真用起来也确实印象深刻。话说回来，这些工具在特定场景下已经达到生产可用。知道是哪些场景能省下大量时间。

### 2026 的四大主力

- **Veo 3.1（Google）** —— 最完整的一套：原生音频生成，对白和效果同步，1080p 输出，支持竖屏。写实和音频上的领头羊。标准档每秒起价 $0.40。用于成片输出 —— 当你需要一个带声音的成品片段。
- **Kling 2.6/3.0（快手）** —— 运动控制和参考视频动作迁移上的领头羊。许多看起来"很真"的社媒片段都是 Kling 做的。带人的内容、要进剪辑的成片用它。
- **Sora 2（OpenAI）** —— 物体物理和较长片段上的叙事连贯性最好。
- **Seedance 2.0（字节跳动）** —— 在大量输入上最强（一次最多 9 张图 + 3 段视频 + 3 段音频）。适合大批量产出。

### 用之前要知道

可靠的时长范围是 5–10 秒。再长就丢质量和连贯性。

每个能用的片段预算 3–7 次生成：同一个 prompt 给的结果不一样。

把 brief 写得像导演在描述镜头里看到什么，而不是像旁白："medium shot of an elderly sailor pointing at the sea" 比 "a sailor tells stories of his adventures" 效果好得多。

当前最佳应用：15 秒以下的短社媒片段、补充镜头、产品介绍、概念可视化。

---

# 用 AI 写代码 —— 哪怕没有编程基础

英语已经成为一种编程语言。Andrej Karpathy 把这个叫做 "vibe coding"：你描述你想要什么，AI 生成代码，你跑起来观察，然后基于结果迭代。

没有开发经验的人在做能用的工具。开发者出货速度比以前快 10 倍。

### 给开发者的：Claude Code 和 Cursor

Claude Code 跑在终端里，能读整个代码库、改多个文件、跑测试、自主提交 commit。

Cursor 是基于 VS Code 的 AI-first IDE。把现有设置导入，立刻开始干活。

两者一起覆盖了终端和 IDE 工作。其余的都是降级 —— 包括 GitHub Copilot。

### 给非开发者的：做点真东西

- **Lovable** —— 自然语言描述变成完整的 Web 应用，不需要编程知识。
- **Bolt.new** —— 类似的快速原型，纯英文。
- **Replit** —— 浏览器里的开发环境，自带 AI，适合学习者。

不写一行代码就能解决的任务：自动整理文件的脚本、从 PDF 和网站抽数据、自用的简单 Web 工具、个人生产力 app。

---

# 自动化：你睡觉时也在干活

这就是 AI 不再是聊天工具、而变成基础设施的地方。"用 AI"和"部署 AI"的差别就在自动化：处理输入、产出输出、不需要你介入的系统。

### n8n：试遍所有平台之后的最佳选择

开源、自托管、运行次数无限。当你一天跑几百个 workflow 时这一点至关重要。

Claude Code 能从自然语言描述生成 n8n 配置：描述你要的 workflow —— 拿到技术实现。不用学那些可视化构建器的学习曲线。

### MCP 把所有东西连起来

Model Context Protocol —— 把 AI 连接到外部工具和数据的开放标准。一个通用适配器：实现一次 —— 你的 AI 就接上了 Google Drive、Slack、GitHub、数据库。Claude Desktop 自带为常见服务预配置好的 MCP server。

### 有真实结果的 workflow

- **内容多平台分发**：发一篇博客 —— Buffer 自动给 LinkedIn、Twitter、Instagram 生成对应版本并安排发送。一份内容变四份，不用额外动手。
- **反馈分流**：新提交的内容跑情感分析 → 负面评价进 Slack 紧急频道 → 自动建一张 support ticket。问题在升级之前就被抓住。

---

# 开源模型：现在就开始学

2026 年的情况和一年前不一样了。

开源模型已经在以两年前看起来不可能的方式追上闭源。光是 2026 年 4 月，18 天里就发布了三个前沿开源权重模型：

- **DeepSeek V4-Pro** —— 80.6% SWE-bench Verified，每百万 token $0.28/$2.48。Opus 级别，价格只有十分之一。100 万 token context。MIT 许可证，可自托管。
- **Kimi K2.6（Moonshot AI）** —— 1 万亿参数，MoE 架构，激活 32B。能并行跑 300 个 sub-agent 处理复杂任务。多数编码 benchmark 上的开源领头羊。
- **GLM-5.1（Z.AI）** —— MIT 许可证无限制，对 enterprise 重要。58.4% SWE-Bench Pro，跑在 8xH100 上。
- **Qwen 3.6 Plus（阿里巴巴）** —— 100 万 context，Apache 2.0，agentic coding 上和闭源前沿模型掰手腕。

### 时间线

- **现在**：通过 API 用开源。OpenRouter —— 大部分模型的统一入口，能直接对比输出。
- **6–12 个月**：消费级硬件 —— 即将发布的 Mac 和更大显存的 GPU —— 能在不上云的情况下跑性能合格的本地模型。
- **12–24 个月**：开源在多数实用任务上会追平或超过闭源。本地部署会变成常态。

Operator Toolkit 让你在两个世界里都能开工。

---

# 个人知识助手

RAG 系统把 AI 答案接地到你的真实文档上。这解决了具体工作问题上的 hallucination —— 而这正是 Operator Toolkit 价值最大的地方。你在自己的知识库之上建一个 AI 专家，它给出引用、什么都不瞎编。

### 用 NotebookLM 做不写代码的 RAG

免费、无需配置、效果意外地好。上传 PDF、Google Docs、YouTube 视频、网页 —— 系统就成了那批内容的专家，带引用。

audio overview 功能把文档变成播客式讨论。Mind map 把复杂主题可视化。从零到能用不到一小时。

### 底层是怎么工作的

给那些要建定制系统的人：文档被切成 chunk、转换成向量表示 —— embedding。这些被存进 vector database。提问时 query 也转成向量，数据库找出相似 chunk，连同问题一起送给模型 —— 模型再给出有依据的答案。

---

# 个人 agent：所有东西的去向

这才是真正变得有意思的地方。

我们在见证一种 AI agent 的诞生：它们不是浏览器 tab 里的 chatbot。AI 跑在你的硬件上，连到你用的所有平台，记住所有事，并且自主行动。

这是 Operator Toolkit 准备让你抵达的最终目的地：不只是用 AI 工具，而是部署代你工作的 agent。

像 Clawdbot 这样的项目展示了方向：开源、本地跑在你的电脑上、连到通讯 app 和工作工具、session 之间持久记忆。能读写文件、控制浏览器、执行脚本。最关键的 —— 实时写代码扩展自己的能力。

这不是某个大公司的产品。这是技术倾向的用户今天就在做的东西。

2026 年是个人 agent 之年。基础设施已经在那了。早期采纳者已经活在这个未来里。

---

# 为什么这个项目的顺序很重要

这个顺序不是随便排的。

- **心智模型先行** —— 没有它，你只是在背套路，不会形成直觉。直觉是工具变化时让你能适应的东西。而工具每几个月就在变。
- **然后是 prompt 和 context** —— 这两项技能让之后每一次 AI 交互的价值都被乘大。是真正的杠杆点。
- **再然后是创意和技术工具** —— 图像、视频、coding 助手。能直接换钱的专业应用。
- **最后是高阶集成** —— 自动化、开源模型、知识系统。这把 AI 从"你用的工具"转成"为你工作的基础设施"。

---

# 最有效的第一步

为一项你反复做的事建一个 Claude project。

上传相关文档。写定义行为的指令。然后突然你就有了一个每周给你省下真实小时数的专门助手。

不是假设的小时数。是真实的 —— 你能把它们重新分配到重要工作上，或者干脆收回来不干。

# 资源

- Anthropic Prompting Guide —— 官方文档加可用模板
- OpenAI Tokenizer —— 可视化 tokenization，理解 context 限额很重要
- Andrej Karpathy 的 LLM 视频教程 —— 工具变化时不会过时的基础知识
- NotebookLM —— 不用写代码的免费 RAG，一小时内能用
- OpenRouter —— 主流模型的统一入口，包括开源选项

# 前路

30 天后，会有两个版本的你存在。

完成了 Operator Toolkit 的那个，能做一个月前看起来不可能的事：搭工具、自动化流程、部署不用一直盯着的 AI 基础设施。

另一个还在收藏链接。还在打算开始。还在等一个对的时机。

同一个起点。不同的轨迹。

会用 AI 和不会用 AI 的人之间的差距每月都在扩大。复利优势随时间增长。等待是有成本的。

30 天，每天 2–3 小时。

工具是 work 的。轮到你了。