30 天精通 AI：一份 2026 年的可执行计划

作者: @sopersone 发布: 2026-05-25 原文: https://x.com/sopersone/status/2058852552620323043

想象一下一年后的两个你。

第一个还在把同一份简历投给几十家公司，看着 AI 重塑行业，心里想着"等我有时间一定要好好搞懂这玩意"。

第二个在以 200 美元/小时的价格做 AI 落地咨询，做着一年前还不存在的工具，因为需求超过产能而在拒客户。

同一个起点。不同的轨迹。而那个分岔口就在接下来的 30 天里。

这套计划叫 Operator Toolkit —— 一个特定的顺序，技能按"复利最大化"的逻辑递进堆叠：每一阶段解锁下一阶段。到第 31 天，你不只是在"用 AI"，你在把它当作基础设施部署。

这不是那种你会收藏起来然后忘掉的工具盘点。不是教去年技术的课程。也不是听起来挺聪明但什么都给不了你的理论。

这是从"信息过载"到"具体结果"的过渡 —— 每天 2 到 3 小时，30 天。

大多数 AI 培训项目犯的错

它们先教工具，再教思考。结果你最后只是背了一堆套路，没有形成直觉。

我们反过来。

改变一切的心智模型

一旦内化了它 —— 你看 AI 的眼光就再也回不去了。

为什么有的 prompt 有效，有的不行

当你写 "the bank was cool" —— 模型必须做选择：钱（银行），还是河岸？Attention 机制通过对周围词加权来解决这个歧义。它一直在问："什么 context 能帮我理解这个词？"

这一条解释了 80% 的情况：有些 prompt 给你的正是你想要的，类似的另一些却完全胡说八道。差别几乎都在于上下文清晰度。给清楚 context —— 模型做出更好的决策。不给 —— 它就靠猜。

Token、窗口和钱

一个 token 大约是 3.5 个字符或 0.75 个词。你按 token 付费，触发的限额也按 token 算。

Context window 是模型的工作记忆：它一次性能装在脑子里的全部文本。Sonnet 4.6 和 Opus 4.6 目前是 100 万 token —— 大约 75 万词，相当于一整个代码库。以前需要把文档切片、然后忍受片段之间失去连贯性的任务，现在可以一次性处理。

大多数人从不去碰的那个参数

Temperature 控制随机性：0 到 1 的刻度。0 —— 每次都给最有把握的答案。1 —— 创造性冒险。

低 temperature 适合事实查询和分析。高 —— 当你需要意外的想法时。

自己测一下：在 temperature 0 跑同一个 prompt 两次 —— 你会得到几乎相同的结果。然后跑 1 —— 差异会很显著。大多数人从不动这个参数，然后困惑为什么结果不可预测。

为什么 AI 会瞎编，以及该怎么办

下面这点反直觉：AI 不知道什么是真。

模型基于 pattern 预测下一段文本是什么。不管事实还是虚构，都存在"听起来挺有把握"的 pattern —— 模型会以同样的自信再现这两种。AI 生成的引用里近一半是部分或完全编造的：作者、期刊名、URL —— 都可能根本不存在。

解决办法不是等一个补丁。Hallucination 是这个架构的结构性属性，不是 bug。

有用的做法：核实具体说法、事实任务用低 temperature、要求模型承认不确定性、搭建把答案接地到真实文档的 RAG 系统。RAG 后面会讲。

2026 模型地图

"哪个 AI 最好？"是个错的问题。对的问题是："我要做什么？"

最好的模型随任务而变。用错的那个，就像拿螺丝刀拧螺栓：技术上能做，但慢得难受。

Claude（Anthropic）：三个强项

Coding —— 推荐已经变了。Sonnet 4.6 以五分之一的成本（每百万 token $3/$15 vs Opus 的 $15/$75）交付 Opus 98% 的编码质量。绝大多数任务 —— 写函数、重构、debug —— 质量差异感知不到。Opus 4.6 和新的 Opus 4.7 只有在 agentic pipeline、复杂多步任务、海量代码库分析这几种场景才值得。
营销和长文写作 —— 因为 Claude 的训练方式，它对 brand voice 和细微差别的把握比其他模型更好。把同一份 brief 喂给不同模型 —— Claude 始终能产出听起来像人写的、而不是一眼 AI 的文案。
表格和商业分析 —— Claude 的 Excel 集成能处理多 tab 工作簿、用单元格引用解释计算、修公式错误。如果你每周在表格里花一小时以上 —— 光凭这一项订阅费就值回来了。

Gemini 3.1 Pro（Google）：研究领头羊

2026 年 2 月发布，基于 Gemini 3 Pro。Context window —— 100 万 token。定价 —— 每百万 token $2/$12，大约是 Sonnet 一半的成本，编码质量相当。

主要优势 —— 内建的 Google Search 集成：能拿到当前信息，不用担心训练后事件被 hallucinate。研究任务、长文档、最新数据 —— 不二之选。

GPT-5.4（OpenAI）：一个有用的参照点

情况和去年不同了。前六的领先模型现在在关键 benchmark 上互相只差 1–2%。GPT-5.4 在终端任务和原生计算机控制上特别强。理解输出质量从平庸到优秀的整个光谱，能帮你避开前者。

Grok：实时社交数据分析

需要了解 X 上此刻在发生什么、内容限制更少 —— Grok。用例很窄，但没有别的工具能像它那样处理这件事。

决策框架

别再问"哪个 AI 最好？"开始问"我要做什么？"

编码和技术任务 → Sonnet 4.6（复杂 agentic 场景用 Opus 4.6/4.7）
需要最新数据的研究 → Gemini 3.1 Pro
长文档和分析 → Gemini 3.1 Pro（100 万 context）
营销文案和 brand voice → Claude
表格 → Claude + Excel 集成
社媒分析 → Grok
图像生成 → Nano Banana Pro → Nano Banana 2
视频生成 → Veo 3.1 或 Kling 2.6/3.0

这个框架消除了大多数人在模型之间反复切换、却没有一个练到精的"选择瘫痪"。

2026 年的 Prompt Engineering

忘掉那些花哨技巧

规则变了。清晰胜过聪明。结果属于那些像称职专业人士、而不是像念咒一样写 brief 的人。

给模型用的格式

Claude 是用 XML 标签训练的 —— 它对这种结构响应特别好：

<context>
背景信息写这里
</context>

<task>
具体指令写这里
</task>

<format>
输出该怎么组织
</format>

GPT 和 Gemini 处理结构化数据时 JSON 表现很好。简单查询用纯文本。Markdown 是个非常好的通用选择。

格式不是魔法 —— 它是给模型清晰信号的方式。XML 标签像文档里的章节标题：减少歧义，模型回报你以质量。

复杂任务用 Chain of Thought

在复杂任务要求答案前加上"let's work through this step by step"。这不是安慰剂：在数学、逻辑、多步分析、debug 上有可测量的提升。简单问题就别加了，多余的推理什么也加不上。

System Prompt 公式

把通用 AI 变成专门助手的四个要素：

Role："You are a senior financial analyst specializing in technology company valuation"
Behavior："ask clarifying questions before making assumptions; acknowledge uncertainty"
Constraints："do not provide specific investment recommendations"
Output format："begin with a two-sentence summary, then provide supporting analysis"

一段写得好的 system prompt 给你专属工作流的一个专门助手。写一次 —— 用几百次。

Context Engineering：真正的杠杆所在

Prompt engineering 是 2024–2025 的必备技能。

Context engineering 是 2025–2026 的技能。

这个迁移承认了一个事实：单个 prompt 的重要性，不如你围绕这次 AI 交互所搭建的"信息环境"。这就是 Operator Toolkit 和那种表层培训分道扬镳的地方：大多数课程到 prompt 就停了，但那些每小时收 $200+ 的人早就转向 context architecture 了。

四种策略

Write —— 把 context 存在活动窗口外，通过临时文件和 AI 能访问的引用文档。
Select —— 不要全都加载，通过 RAG 和动态查询取需要的部分。
Compress —— 把详细信息总结后再放进 context。
Isolate —— 把不兼容的 context 分流到不同的对话分支或子 agent。

Claude Projects 的实战

在 claude.ai 上建一个 project，上传相关文档，写自定义指令 —— 那个 project 里的每一次对话都自动看到整个知识库。

大多数人会错过的关键洞察：一个为某项具体任务建的窄 project，比一个什么都装的大 project 更好用。一个有示例和报价的"客户提案" project，比一个塞了几百份文件、彼此抢注意力的"工作杂事" project 有效得多。

给非程序员的 RAG

RAG 是 Retrieval Augmented Generation。听起来复杂 —— 想法很简单：回答之前，系统在你的文档里搜相关内容，然后把它放进 context。模型基于你的真实数据回答，不是基于训练集。具体工作话题上的 hallucination 几乎消失。

NotebookLM（Google）—— 不写一行代码的免费 RAG。上传 PDF、文档、YouTube 视频 —— 你就有了一个能引用来源的、对那批内容的专家。从零到能用不到一小时。

Claude Projects 作为替代 —— 当你不只是要查知识库，还需要生成文档和代码时，它更灵活。

图像生成

Nano Banana Pro：当前的标准

Nano Banana Pro 是 Google DeepMind 的 Gemini 3 Pro Image 的官方名字，2025 年 11 月发布。基于 Gemini 3 Pro，能调真正的 Google Search。

它做对了什么：

准确的文字渲染 —— 多年来 AI 没法在图像里可靠地渲染文字。Nano Banana Pro 能按指定风格生成正确的文字。光这一项能力就解锁了以前不可能的用例：信息图、海报、有大标题的图片。
生成前的场景推理 —— 模型在生成前分析构图、光线和物体关系。结果看起来是有意为之的，不是随机的。
靠搜索保证事实准确 —— 在真实主题上做信息图，不会编造数据。
Nano Banana 2（Gemini 3.1 Flash Image） —— Flash 速度的新版：更快、更便宜，多数任务质量接近 Pro。迭代和草稿的好起点。

能用的 prompt 结构

忘掉那一套塞 "4k, trending on Artstation, masterpiece" 的老办法。这个模型懂自然语言。

结构：主体加细节 → 动作 → 环境 → 构图说明 → 光照 → 文字要求。

例子："minimalist thriller movie poster, title 'Silent Echo' in distressed sans-serif at the top, abandoned cabin in a snowy forest, aerial view, high-contrast black and white, title clearly legible and centered."

具体性才管用：描述你要的结果，不要指望 AI 和你品味一样。

其他工具

Midjourney V7 在艺术和电影感作品上仍领先 —— 风格化、艺术作品、不追求写实的场景。
Flux —— 想本地跑生成的人用的开源选项。

视频生成：生产级用例已经存在

实话：AI 视频 demo 看着很惊人，真用起来也确实印象深刻。话说回来，这些工具在特定场景下已经达到生产可用。知道是哪些场景能省下大量时间。

2026 的四大主力

Veo 3.1（Google） —— 最完整的一套：原生音频生成，对白和效果同步，1080p 输出，支持竖屏。写实和音频上的领头羊。标准档每秒起价 $0.40。用于成片输出 —— 当你需要一个带声音的成品片段。
Kling 2.6/3.0（快手） —— 运动控制和参考视频动作迁移上的领头羊。许多看起来"很真"的社媒片段都是 Kling 做的。带人的内容、要进剪辑的成片用它。
Sora 2（OpenAI） —— 物体物理和较长片段上的叙事连贯性最好。
Seedance 2.0（字节跳动） —— 在大量输入上最强（一次最多 9 张图 + 3 段视频 + 3 段音频）。适合大批量产出。

用之前要知道

可靠的时长范围是 5–10 秒。再长就丢质量和连贯性。

每个能用的片段预算 3–7 次生成：同一个 prompt 给的结果不一样。

把 brief 写得像导演在描述镜头里看到什么，而不是像旁白："medium shot of an elderly sailor pointing at the sea" 比 "a sailor tells stories of his adventures" 效果好得多。

当前最佳应用：15 秒以下的短社媒片段、补充镜头、产品介绍、概念可视化。

用 AI 写代码 —— 哪怕没有编程基础

英语已经成为一种编程语言。Andrej Karpathy 把这个叫做 "vibe coding"：你描述你想要什么，AI 生成代码，你跑起来观察，然后基于结果迭代。

没有开发经验的人在做能用的工具。开发者出货速度比以前快 10 倍。

给开发者的：Claude Code 和 Cursor

Claude Code 跑在终端里，能读整个代码库、改多个文件、跑测试、自主提交 commit。

Cursor 是基于 VS Code 的 AI-first IDE。把现有设置导入，立刻开始干活。

两者一起覆盖了终端和 IDE 工作。其余的都是降级 —— 包括 GitHub Copilot。

给非开发者的：做点真东西

Lovable —— 自然语言描述变成完整的 Web 应用，不需要编程知识。
Bolt.new —— 类似的快速原型，纯英文。
Replit —— 浏览器里的开发环境，自带 AI，适合学习者。

不写一行代码就能解决的任务：自动整理文件的脚本、从 PDF 和网站抽数据、自用的简单 Web 工具、个人生产力 app。

自动化：你睡觉时也在干活

这就是 AI 不再是聊天工具、而变成基础设施的地方。"用 AI"和"部署 AI"的差别就在自动化：处理输入、产出输出、不需要你介入的系统。

n8n：试遍所有平台之后的最佳选择

开源、自托管、运行次数无限。当你一天跑几百个 workflow 时这一点至关重要。

Claude Code 能从自然语言描述生成 n8n 配置：描述你要的 workflow —— 拿到技术实现。不用学那些可视化构建器的学习曲线。

MCP 把所有东西连起来

Model Context Protocol —— 把 AI 连接到外部工具和数据的开放标准。一个通用适配器：实现一次 —— 你的 AI 就接上了 Google Drive、Slack、GitHub、数据库。Claude Desktop 自带为常见服务预配置好的 MCP server。

有真实结果的 workflow

内容多平台分发：发一篇博客 —— Buffer 自动给 LinkedIn、Twitter、Instagram 生成对应版本并安排发送。一份内容变四份，不用额外动手。
反馈分流：新提交的内容跑情感分析 → 负面评价进 Slack 紧急频道 → 自动建一张 support ticket。问题在升级之前就被抓住。

开源模型：现在就开始学

2026 年的情况和一年前不一样了。

开源模型已经在以两年前看起来不可能的方式追上闭源。光是 2026 年 4 月，18 天里就发布了三个前沿开源权重模型：

DeepSeek V4-Pro —— 80.6% SWE-bench Verified，每百万 token $0.28/$2.48。Opus 级别，价格只有十分之一。100 万 token context。MIT 许可证，可自托管。
Kimi K2.6（Moonshot AI） —— 1 万亿参数，MoE 架构，激活 32B。能并行跑 300 个 sub-agent 处理复杂任务。多数编码 benchmark 上的开源领头羊。
GLM-5.1（Z.AI） —— MIT 许可证无限制，对 enterprise 重要。58.4% SWE-Bench Pro，跑在 8xH100 上。
Qwen 3.6 Plus（阿里巴巴） —— 100 万 context，Apache 2.0，agentic coding 上和闭源前沿模型掰手腕。

时间线

现在：通过 API 用开源。OpenRouter —— 大部分模型的统一入口，能直接对比输出。
6–12 个月：消费级硬件 —— 即将发布的 Mac 和更大显存的 GPU —— 能在不上云的情况下跑性能合格的本地模型。
12–24 个月：开源在多数实用任务上会追平或超过闭源。本地部署会变成常态。

Operator Toolkit 让你在两个世界里都能开工。

个人知识助手

RAG 系统把 AI 答案接地到你的真实文档上。这解决了具体工作问题上的 hallucination —— 而这正是 Operator Toolkit 价值最大的地方。你在自己的知识库之上建一个 AI 专家，它给出引用、什么都不瞎编。

用 NotebookLM 做不写代码的 RAG

免费、无需配置、效果意外地好。上传 PDF、Google Docs、YouTube 视频、网页 —— 系统就成了那批内容的专家，带引用。

audio overview 功能把文档变成播客式讨论。Mind map 把复杂主题可视化。从零到能用不到一小时。

底层是怎么工作的

给那些要建定制系统的人：文档被切成 chunk、转换成向量表示 —— embedding。这些被存进 vector database。提问时 query 也转成向量，数据库找出相似 chunk，连同问题一起送给模型 —— 模型再给出有依据的答案。

个人 agent：所有东西的去向

这才是真正变得有意思的地方。

我们在见证一种 AI agent 的诞生：它们不是浏览器 tab 里的 chatbot。AI 跑在你的硬件上，连到你用的所有平台，记住所有事，并且自主行动。

这是 Operator Toolkit 准备让你抵达的最终目的地：不只是用 AI 工具，而是部署代你工作的 agent。

像 Clawdbot 这样的项目展示了方向：开源、本地跑在你的电脑上、连到通讯 app 和工作工具、session 之间持久记忆。能读写文件、控制浏览器、执行脚本。最关键的 —— 实时写代码扩展自己的能力。

这不是某个大公司的产品。这是技术倾向的用户今天就在做的东西。

2026 年是个人 agent 之年。基础设施已经在那了。早期采纳者已经活在这个未来里。

为什么这个项目的顺序很重要

这个顺序不是随便排的。

心智模型先行 —— 没有它，你只是在背套路，不会形成直觉。直觉是工具变化时让你能适应的东西。而工具每几个月就在变。
然后是 prompt 和 context —— 这两项技能让之后每一次 AI 交互的价值都被乘大。是真正的杠杆点。
再然后是创意和技术工具 —— 图像、视频、coding 助手。能直接换钱的专业应用。
最后是高阶集成 —— 自动化、开源模型、知识系统。这把 AI 从"你用的工具"转成"为你工作的基础设施"。

最有效的第一步

为一项你反复做的事建一个 Claude project。

上传相关文档。写定义行为的指令。然后突然你就有了一个每周给你省下真实小时数的专门助手。

不是假设的小时数。是真实的 —— 你能把它们重新分配到重要工作上，或者干脆收回来不干。

资源

Anthropic Prompting Guide —— 官方文档加可用模板
OpenAI Tokenizer —— 可视化 tokenization，理解 context 限额很重要
Andrej Karpathy 的 LLM 视频教程 —— 工具变化时不会过时的基础知识
NotebookLM —— 不用写代码的免费 RAG，一小时内能用
OpenRouter —— 主流模型的统一入口，包括开源选项

前路

30 天后，会有两个版本的你存在。

完成了 Operator Toolkit 的那个，能做一个月前看起来不可能的事：搭工具、自动化流程、部署不用一直盯着的 AI 基础设施。

另一个还在收藏链接。还在打算开始。还在等一个对的时机。

同一个起点。不同的轨迹。

会用 AI 和不会用 AI 的人之间的差距每月都在扩大。复利优势随时间增长。等待是有成本的。

30 天，每天 2–3 小时。

工具是 work 的。轮到你了。