# 30 天精通 AI:一份 2026 年的可执行计划
> **作者**: [@sopersone](https://x.com/sopersone)
> **发布**: 2026-05-25
> **原文**: https://x.com/sopersone/status/2058852552620323043

想象一下一年后的两个你。
第一个还在把同一份简历投给几十家公司,看着 AI 重塑行业,心里想着"等我有时间一定要好好搞懂这玩意"。
第二个在以 200 美元/小时的价格做 AI 落地咨询,做着一年前还不存在的工具,因为需求超过产能而在拒客户。
同一个起点。不同的轨迹。而那个分岔口就在接下来的 30 天里。
这套计划叫 **Operator Toolkit** —— 一个特定的顺序,技能按"复利最大化"的逻辑递进堆叠:每一阶段解锁下一阶段。到第 31 天,你不只是在"用 AI",你在把它当作基础设施部署。
这不是那种你会收藏起来然后忘掉的工具盘点。不是教去年技术的课程。也不是听起来挺聪明但什么都给不了你的理论。
这是从"信息过载"到"具体结果"的过渡 —— 每天 2 到 3 小时,30 天。
### 大多数 AI 培训项目犯的错
它们先教工具,再教思考。结果你最后只是背了一堆套路,没有形成直觉。
我们反过来。
---
## 改变一切的心智模型
一旦内化了它 —— 你看 AI 的眼光就再也回不去了。
### 为什么有的 prompt 有效,有的不行
当你写 "the bank was cool" —— 模型必须做选择:钱(银行),还是河岸?Attention 机制通过对周围词加权来解决这个歧义。它一直在问:"什么 context 能帮我理解这个词?"
这一条解释了 80% 的情况:有些 prompt 给你的正是你想要的,类似的另一些却完全胡说八道。差别几乎都在于上下文清晰度。给清楚 context —— 模型做出更好的决策。不给 —— 它就靠猜。
### Token、窗口和钱
一个 token 大约是 3.5 个字符或 0.75 个词。你按 token 付费,触发的限额也按 token 算。
Context window 是模型的工作记忆:它一次性能装在脑子里的全部文本。Sonnet 4.6 和 Opus 4.6 目前是 100 万 token —— 大约 75 万词,相当于一整个代码库。以前需要把文档切片、然后忍受片段之间失去连贯性的任务,现在可以一次性处理。
### 大多数人从不去碰的那个参数
Temperature 控制随机性:0 到 1 的刻度。0 —— 每次都给最有把握的答案。1 —— 创造性冒险。
低 temperature 适合事实查询和分析。高 —— 当你需要意外的想法时。
自己测一下:在 temperature 0 跑同一个 prompt 两次 —— 你会得到几乎相同的结果。然后跑 1 —— 差异会很显著。大多数人从不动这个参数,然后困惑为什么结果不可预测。
### 为什么 AI 会瞎编,以及该怎么办
下面这点反直觉:AI 不知道什么是真。
模型基于 pattern 预测下一段文本是什么。不管事实还是虚构,都存在"听起来挺有把握"的 pattern —— 模型会以同样的自信再现这两种。AI 生成的引用里近一半是部分或完全编造的:作者、期刊名、URL —— 都可能根本不存在。
解决办法不是等一个补丁。Hallucination 是这个架构的结构性属性,不是 bug。
有用的做法:核实具体说法、事实任务用低 temperature、要求模型承认不确定性、搭建把答案接地到真实文档的 RAG 系统。RAG 后面会讲。
---
## 2026 模型地图
"哪个 AI 最好?"是个错的问题。对的问题是:"我要做什么?"
最好的模型随任务而变。用错的那个,就像拿螺丝刀拧螺栓:技术上能做,但慢得难受。
### Claude(Anthropic):三个强项
- **Coding** —— 推荐已经变了。Sonnet 4.6 以五分之一的成本(每百万 token $3/$15 vs Opus 的 $15/$75)交付 Opus 98% 的编码质量。绝大多数任务 —— 写函数、重构、debug —— 质量差异感知不到。Opus 4.6 和新的 Opus 4.7 只有在 agentic pipeline、复杂多步任务、海量代码库分析这几种场景才值得。
- **营销和长文写作** —— 因为 Claude 的训练方式,它对 brand voice 和细微差别的把握比其他模型更好。把同一份 brief 喂给不同模型 —— Claude 始终能产出听起来像人写的、而不是一眼 AI 的文案。
- **表格和商业分析** —— Claude 的 Excel 集成能处理多 tab 工作簿、用单元格引用解释计算、修公式错误。如果你每周在表格里花一小时以上 —— 光凭这一项订阅费就值回来了。
### Gemini 3.1 Pro(Google):研究领头羊
2026 年 2 月发布,基于 Gemini 3 Pro。Context window —— 100 万 token。定价 —— 每百万 token $2/$12,大约是 Sonnet 一半的成本,编码质量相当。
主要优势 —— 内建的 Google Search 集成:能拿到当前信息,不用担心训练后事件被 hallucinate。研究任务、长文档、最新数据 —— 不二之选。
### GPT-5.4(OpenAI):一个有用的参照点
情况和去年不同了。前六的领先模型现在在关键 benchmark 上互相只差 1–2%。GPT-5.4 在终端任务和原生计算机控制上特别强。理解输出质量从平庸到优秀的整个光谱,能帮你避开前者。
### Grok:实时社交数据分析
需要了解 X 上此刻在发生什么、内容限制更少 —— Grok。用例很窄,但没有别的工具能像它那样处理这件事。
### 决策框架
别再问"哪个 AI 最好?"开始问"我要做什么?"
- 编码和技术任务 → Sonnet 4.6(复杂 agentic 场景用 Opus 4.6/4.7)
- 需要最新数据的研究 → Gemini 3.1 Pro
- 长文档和分析 → Gemini 3.1 Pro(100 万 context)
- 营销文案和 brand voice → Claude
- 表格 → Claude + Excel 集成
- 社媒分析 → Grok
- 图像生成 → Nano Banana Pro → Nano Banana 2
- 视频生成 → Veo 3.1 或 Kling 2.6/3.0
这个框架消除了大多数人在模型之间反复切换、却没有一个练到精的"选择瘫痪"。
---
# 2026 年的 Prompt Engineering
### 忘掉那些花哨技巧
规则变了。清晰胜过聪明。结果属于那些像称职专业人士、而不是像念咒一样写 brief 的人。
### 给模型用的格式
Claude 是用 XML 标签训练的 —— 它对这种结构响应特别好:
```xml
<context>
背景信息写这里
</context>
<task>
具体指令写这里
</task>
<format>
输出该怎么组织
</format>
```
GPT 和 Gemini 处理结构化数据时 JSON 表现很好。简单查询用纯文本。Markdown 是个非常好的通用选择。
格式不是魔法 —— 它是给模型清晰信号的方式。XML 标签像文档里的章节标题:减少歧义,模型回报你以质量。
### 复杂任务用 Chain of Thought
在复杂任务要求答案前加上"let's work through this step by step"。这不是安慰剂:在数学、逻辑、多步分析、debug 上有可测量的提升。简单问题就别加了,多余的推理什么也加不上。
### System Prompt 公式
把通用 AI 变成专门助手的四个要素:
- **Role**:"You are a senior financial analyst specializing in technology company valuation"
- **Behavior**:"ask clarifying questions before making assumptions; acknowledge uncertainty"
- **Constraints**:"do not provide specific investment recommendations"
- **Output format**:"begin with a two-sentence summary, then provide supporting analysis"
一段写得好的 system prompt 给你专属工作流的一个专门助手。写一次 —— 用几百次。
---
# Context Engineering:真正的杠杆所在
Prompt engineering 是 2024–2025 的必备技能。
Context engineering 是 2025–2026 的技能。
这个迁移承认了一个事实:单个 prompt 的重要性,不如你围绕这次 AI 交互所搭建的"信息环境"。这就是 Operator Toolkit 和那种表层培训分道扬镳的地方:大多数课程到 prompt 就停了,但那些每小时收 $200+ 的人早就转向 context architecture 了。
### 四种策略
- **Write** —— 把 context 存在活动窗口外,通过临时文件和 AI 能访问的引用文档。
- **Select** —— 不要全都加载,通过 RAG 和动态查询取需要的部分。
- **Compress** —— 把详细信息总结后再放进 context。
- **Isolate** —— 把不兼容的 context 分流到不同的对话分支或子 agent。
### Claude Projects 的实战
在 claude.ai 上建一个 project,上传相关文档,写自定义指令 —— 那个 project 里的每一次对话都自动看到整个知识库。
大多数人会错过的关键洞察:一个为某项具体任务建的窄 project,比一个什么都装的大 project 更好用。一个有示例和报价的"客户提案" project,比一个塞了几百份文件、彼此抢注意力的"工作杂事" project 有效得多。
### 给非程序员的 RAG
RAG 是 Retrieval Augmented Generation。听起来复杂 —— 想法很简单:回答之前,系统在你的文档里搜相关内容,然后把它放进 context。模型基于你的真实数据回答,不是基于训练集。具体工作话题上的 hallucination 几乎消失。
NotebookLM(Google)—— 不写一行代码的免费 RAG。上传 PDF、文档、YouTube 视频 —— 你就有了一个能引用来源的、对那批内容的专家。从零到能用不到一小时。
Claude Projects 作为替代 —— 当你不只是要查知识库,还需要生成文档和代码时,它更灵活。
---
# 图像生成
### Nano Banana Pro:当前的标准
Nano Banana Pro 是 Google DeepMind 的 Gemini 3 Pro Image 的官方名字,2025 年 11 月发布。基于 Gemini 3 Pro,能调真正的 Google Search。
它做对了什么:
- **准确的文字渲染** —— 多年来 AI 没法在图像里可靠地渲染文字。Nano Banana Pro 能按指定风格生成正确的文字。光这一项能力就解锁了以前不可能的用例:信息图、海报、有大标题的图片。
- **生成前的场景推理** —— 模型在生成前分析构图、光线和物体关系。结果看起来是有意为之的,不是随机的。
- **靠搜索保证事实准确** —— 在真实主题上做信息图,不会编造数据。
- **Nano Banana 2(Gemini 3.1 Flash Image)** —— Flash 速度的新版:更快、更便宜,多数任务质量接近 Pro。迭代和草稿的好起点。
### 能用的 prompt 结构
忘掉那一套塞 "4k, trending on Artstation, masterpiece" 的老办法。这个模型懂自然语言。
结构:主体加细节 → 动作 → 环境 → 构图说明 → 光照 → 文字要求。
例子:"minimalist thriller movie poster, title 'Silent Echo' in distressed sans-serif at the top, abandoned cabin in a snowy forest, aerial view, high-contrast black and white, title clearly legible and centered."
具体性才管用:描述你要的结果,不要指望 AI 和你品味一样。
### 其他工具
- Midjourney V7 在艺术和电影感作品上仍领先 —— 风格化、艺术作品、不追求写实的场景。
- Flux —— 想本地跑生成的人用的开源选项。
---
# 视频生成:生产级用例已经存在
实话:AI 视频 demo 看着很惊人,真用起来也确实印象深刻。话说回来,这些工具在特定场景下已经达到生产可用。知道是哪些场景能省下大量时间。
### 2026 的四大主力
- **Veo 3.1(Google)** —— 最完整的一套:原生音频生成,对白和效果同步,1080p 输出,支持竖屏。写实和音频上的领头羊。标准档每秒起价 $0.40。用于成片输出 —— 当你需要一个带声音的成品片段。
- **Kling 2.6/3.0(快手)** —— 运动控制和参考视频动作迁移上的领头羊。许多看起来"很真"的社媒片段都是 Kling 做的。带人的内容、要进剪辑的成片用它。
- **Sora 2(OpenAI)** —— 物体物理和较长片段上的叙事连贯性最好。
- **Seedance 2.0(字节跳动)** —— 在大量输入上最强(一次最多 9 张图 + 3 段视频 + 3 段音频)。适合大批量产出。
### 用之前要知道
可靠的时长范围是 5–10 秒。再长就丢质量和连贯性。
每个能用的片段预算 3–7 次生成:同一个 prompt 给的结果不一样。
把 brief 写得像导演在描述镜头里看到什么,而不是像旁白:"medium shot of an elderly sailor pointing at the sea" 比 "a sailor tells stories of his adventures" 效果好得多。
当前最佳应用:15 秒以下的短社媒片段、补充镜头、产品介绍、概念可视化。
---
# 用 AI 写代码 —— 哪怕没有编程基础
英语已经成为一种编程语言。Andrej Karpathy 把这个叫做 "vibe coding":你描述你想要什么,AI 生成代码,你跑起来观察,然后基于结果迭代。
没有开发经验的人在做能用的工具。开发者出货速度比以前快 10 倍。
### 给开发者的:Claude Code 和 Cursor
Claude Code 跑在终端里,能读整个代码库、改多个文件、跑测试、自主提交 commit。
Cursor 是基于 VS Code 的 AI-first IDE。把现有设置导入,立刻开始干活。
两者一起覆盖了终端和 IDE 工作。其余的都是降级 —— 包括 GitHub Copilot。
### 给非开发者的:做点真东西
- **Lovable** —— 自然语言描述变成完整的 Web 应用,不需要编程知识。
- **Bolt.new** —— 类似的快速原型,纯英文。
- **Replit** —— 浏览器里的开发环境,自带 AI,适合学习者。
不写一行代码就能解决的任务:自动整理文件的脚本、从 PDF 和网站抽数据、自用的简单 Web 工具、个人生产力 app。
---
# 自动化:你睡觉时也在干活
这就是 AI 不再是聊天工具、而变成基础设施的地方。"用 AI"和"部署 AI"的差别就在自动化:处理输入、产出输出、不需要你介入的系统。
### n8n:试遍所有平台之后的最佳选择
开源、自托管、运行次数无限。当你一天跑几百个 workflow 时这一点至关重要。
Claude Code 能从自然语言描述生成 n8n 配置:描述你要的 workflow —— 拿到技术实现。不用学那些可视化构建器的学习曲线。
### MCP 把所有东西连起来
Model Context Protocol —— 把 AI 连接到外部工具和数据的开放标准。一个通用适配器:实现一次 —— 你的 AI 就接上了 Google Drive、Slack、GitHub、数据库。Claude Desktop 自带为常见服务预配置好的 MCP server。
### 有真实结果的 workflow
- **内容多平台分发**:发一篇博客 —— Buffer 自动给 LinkedIn、Twitter、Instagram 生成对应版本并安排发送。一份内容变四份,不用额外动手。
- **反馈分流**:新提交的内容跑情感分析 → 负面评价进 Slack 紧急频道 → 自动建一张 support ticket。问题在升级之前就被抓住。
---
# 开源模型:现在就开始学
2026 年的情况和一年前不一样了。
开源模型已经在以两年前看起来不可能的方式追上闭源。光是 2026 年 4 月,18 天里就发布了三个前沿开源权重模型:
- **DeepSeek V4-Pro** —— 80.6% SWE-bench Verified,每百万 token $0.28/$2.48。Opus 级别,价格只有十分之一。100 万 token context。MIT 许可证,可自托管。
- **Kimi K2.6(Moonshot AI)** —— 1 万亿参数,MoE 架构,激活 32B。能并行跑 300 个 sub-agent 处理复杂任务。多数编码 benchmark 上的开源领头羊。
- **GLM-5.1(Z.AI)** —— MIT 许可证无限制,对 enterprise 重要。58.4% SWE-Bench Pro,跑在 8xH100 上。
- **Qwen 3.6 Plus(阿里巴巴)** —— 100 万 context,Apache 2.0,agentic coding 上和闭源前沿模型掰手腕。
### 时间线
- **现在**:通过 API 用开源。OpenRouter —— 大部分模型的统一入口,能直接对比输出。
- **6–12 个月**:消费级硬件 —— 即将发布的 Mac 和更大显存的 GPU —— 能在不上云的情况下跑性能合格的本地模型。
- **12–24 个月**:开源在多数实用任务上会追平或超过闭源。本地部署会变成常态。
Operator Toolkit 让你在两个世界里都能开工。
---
# 个人知识助手
RAG 系统把 AI 答案接地到你的真实文档上。这解决了具体工作问题上的 hallucination —— 而这正是 Operator Toolkit 价值最大的地方。你在自己的知识库之上建一个 AI 专家,它给出引用、什么都不瞎编。
### 用 NotebookLM 做不写代码的 RAG
免费、无需配置、效果意外地好。上传 PDF、Google Docs、YouTube 视频、网页 —— 系统就成了那批内容的专家,带引用。
audio overview 功能把文档变成播客式讨论。Mind map 把复杂主题可视化。从零到能用不到一小时。
### 底层是怎么工作的
给那些要建定制系统的人:文档被切成 chunk、转换成向量表示 —— embedding。这些被存进 vector database。提问时 query 也转成向量,数据库找出相似 chunk,连同问题一起送给模型 —— 模型再给出有依据的答案。
---
# 个人 agent:所有东西的去向
这才是真正变得有意思的地方。
我们在见证一种 AI agent 的诞生:它们不是浏览器 tab 里的 chatbot。AI 跑在你的硬件上,连到你用的所有平台,记住所有事,并且自主行动。
这是 Operator Toolkit 准备让你抵达的最终目的地:不只是用 AI 工具,而是部署代你工作的 agent。
像 Clawdbot 这样的项目展示了方向:开源、本地跑在你的电脑上、连到通讯 app 和工作工具、session 之间持久记忆。能读写文件、控制浏览器、执行脚本。最关键的 —— 实时写代码扩展自己的能力。
这不是某个大公司的产品。这是技术倾向的用户今天就在做的东西。
2026 年是个人 agent 之年。基础设施已经在那了。早期采纳者已经活在这个未来里。
---
# 为什么这个项目的顺序很重要
这个顺序不是随便排的。
- **心智模型先行** —— 没有它,你只是在背套路,不会形成直觉。直觉是工具变化时让你能适应的东西。而工具每几个月就在变。
- **然后是 prompt 和 context** —— 这两项技能让之后每一次 AI 交互的价值都被乘大。是真正的杠杆点。
- **再然后是创意和技术工具** —— 图像、视频、coding 助手。能直接换钱的专业应用。
- **最后是高阶集成** —— 自动化、开源模型、知识系统。这把 AI 从"你用的工具"转成"为你工作的基础设施"。
---
# 最有效的第一步
为一项你反复做的事建一个 Claude project。
上传相关文档。写定义行为的指令。然后突然你就有了一个每周给你省下真实小时数的专门助手。
不是假设的小时数。是真实的 —— 你能把它们重新分配到重要工作上,或者干脆收回来不干。
# 资源
- Anthropic Prompting Guide —— 官方文档加可用模板
- OpenAI Tokenizer —— 可视化 tokenization,理解 context 限额很重要
- Andrej Karpathy 的 LLM 视频教程 —— 工具变化时不会过时的基础知识
- NotebookLM —— 不用写代码的免费 RAG,一小时内能用
- OpenRouter —— 主流模型的统一入口,包括开源选项
# 前路
30 天后,会有两个版本的你存在。
完成了 Operator Toolkit 的那个,能做一个月前看起来不可能的事:搭工具、自动化流程、部署不用一直盯着的 AI 基础设施。
另一个还在收藏链接。还在打算开始。还在等一个对的时机。
同一个起点。不同的轨迹。
会用 AI 和不会用 AI 的人之间的差距每月都在扩大。复利优势随时间增长。等待是有成本的。
30 天,每天 2–3 小时。
工具是 work 的。轮到你了。