← 书目

通用人工智能的两年:从 GPT-4 的余温到 Agent 元年

2024-04 至 2028-04,AGI 发展的回望、推演与现实冲击

写作时间:2026 年 4 月 12 日

一、开篇:AGI 已经不是一个日期,而是一条曲线

两年前——2024 年 4 月——业界谈论 AGI 时,最常见的表述仍是一个"某年某月到来的事件"。两年后的今天,这种"时点论"几乎已被从业者集体抛弃。AGI 不是一条待跨越的红线,而是一条正在被逐步填满的能力曲线:推理、多模态、长程自主、具身操作、经济替代率——每一个维度以各自的速率上升,在不同任务域先后越过"比中位数人类专家做得更好"的阈值。

一个更有操作性的定义正在形成:当一个 AI 系统能够以远低于人类的边际成本,在具有经济价值的任务上交付不亚于专业人类的结果,并且这件事在几乎所有知识工作上都成立,我们就把它称为 AGI。 按这条尺子,2026 年 4 月的前沿模型已经在编程、数学竞赛、医学问答、法律检索、科研综述等十几个细分领域越线,但在 30 天跨度的自主项目执行、真实物理环境操作、以及"生成新假设"上仍未合格。本文想回答三个问题:过去两年究竟发生了什么;未来两年会发生什么;它对现实世界意味着什么。

核心论断三条。第一,过去两年最重要的变量不是"更大的预训练",而是推理(reasoning)与强化学习后训练(RL post-training)构成的第二条 scaling 曲线,这条曲线至今没有显出拐点。第二,模型能力正在从"会回答"跨过"会做事",Agent 正在成为新的交付单元,软件工程是第一个被系统性重写的行业。第三,算力、电力与监管将在 2026-2028 年成为比模型本身更硬的约束——AGI 的瓶颈从研究前沿转移到了实体经济前沿。

有必要先把一条反共识的话摆在前面:过去两年最被高估的是"基础模型能力差距",最被低估的是"分发 + 工具链 + 企业信任"这三件事的复合效应。从纯 benchmark 看,前五家实验室的模型差距不超过三个月;但在"一个企业法务团队愿意把合同审阅托付给谁"这件事上,差距是两年。这也是本文后半段商业化反转的真实原因。

二、过去两年:五条能力曲线的同时陡升

推理(Reasoning)。2024 年 4 月,业界顶级模型是 GPT-4 Turbo 和 Claude 3 Opus,它们本质上仍是"一次前向传播给答案"的直觉式系统。转折发生在 2024 年 9 月 OpenAI 发布 o1-preview,第一次把 chain-of-thought 放进后训练循环,成为一等公民。四个月后(2025-01)DeepSeek-R1 以开源形态证明这条路线可以被复刻,而且 R1 的增量 RL 训练只花了约 29.4 万美元——这条消息在发布当天把 NVIDIA 市值抹掉约 5890 亿美元。2025 年 4 月 o3/o4-mini 登场,reasoning 模型在 AIME 2025 上(带 Python)达到 99.5%,GPQA Diamond 越过 83%,EpochAI Frontier Math 从此前所有模型不到 2% 的天花板一脚踩到 25%。2025 年 8 月 GPT-5、11 月 18 日 Gemini 3、12 月初 Gemini 3 Deep Think、2026 年 3 月 5 日 GPT-5.4(原生 Computer Use、OSWorld 75%、1M 上下文),一系列发布把"第二条曲线"的斜率摆得非常清楚。到 2026 年初,业界共识是:预训练曲线在平缓,但 test-time compute + RL 这条曲线还在直线上升,且每 FLOP 的回报更高。

值得一个独立段落的是 RL post-training 的技术内核。业界正在收敛到一个相对统一的方案:可验证奖励(verifiable rewards, RLVR)。凡是能被机器自动判对错的任务——数学、代码、形式化证明、带单元测试的工程任务——都是 RL 的优质燃料;反过来"写一封得体的邮件"这类没有 ground truth 的任务,仍要靠 RLHF/RLAIF。这条分界线解释了一件重要的事:为什么 2025-2026 年 reasoning 模型在数学、代码上涨得飞快,却在"写作风格"、"情商"、"开放式长程规划"上几乎没什么进步。 不是模型不努力,是奖励信号做不出来。这也是为什么 Anthropic 2025 年下半年开始把大量精力投入"长程 agent 的过程奖励建模"——这件事做成,下一代模型才有可能在 30 天任务上真正自主。

多模态与原生一体化。Gemini 1.5 在 2024 年把 1M token 上下文工业化,GPT-4o 在 2024-05 把语音-视觉-文本融合到一个模型里,消灭了过去 ASR+LLM+TTS 的串联管线。2025 年全年,所有头部模型都默认 native multimodal:图像理解 MMMU 基准从 GPT-4 的 56% 一路推到 GPT-5 的 84%+,视频理解、屏幕理解成为 Computer Use 的前置。一个直观的变化:今天给模型截一张 Excel 图,它能直接指出公式错在哪;两年前这件事还需要一套定制 OCR 管线。

Agent 与 Computer Use。2024 年 10 月 Anthropic 发布 Computer Use,第一次让模型像人一样控制屏幕;2025 年 1 月 OpenAI 推出 Operator/CUA;同年 Google 跟进 Gemini 2.5 Computer Use。这一年的意义在于:模型第一次被允许犯错、重试、观察后果。2026 年 3 月 GPT-5.4 把 OSWorld 分数推到 75%——这是 Computer Use 第一次在通用桌面任务上超过人类新手。更具标志性的是 Claude Code——2025 年 5 月发布,八个月内超过 GitHub Copilot 和 Cursor 成为使用率最高、最被开发者喜爱的编码工具(Pragmatic Engineer 2026-02 调研,906 位工程师,46% "most loved")。Claude Code、Cursor、Codex、Devin 在 2026 年初开始互相嵌套:OpenAI 官方 Codex 插件跑在 Anthropic 的 Claude Code 里,开发者并行调度 Planner/Architect/Implementer/Tester/Reviewer 的多 Agent 团队——单人维护一支"AI 工程队"已是主流工作方式。到 2025 年底,约 85% 开发者日常使用 AI 编码工具。Cursor 从 2025 年 1 月的 1 亿 ARR 一路爬到 2026 年 2 月的 20 亿 ARR,估值 293 亿美元,14 个月 20 倍——这是软件行业历史上最陡的营收曲线,没有之一。

Agent 生态还有一件被严重低估的事:Anthropic 2024 年 11 月开源的 MCP(Model Context Protocol)已经成为事实上的"Agent USB 接口"。到 2026 年 4 月,公共 MCP server 超过 10,000 个,Python/TypeScript SDK 月下载量 9700 万,OpenAI、Microsoft、Google、Amazon 全部宣布原生支持。这是过去 30 年开发者生态里少见的"竞争对手围绕一个对手制定的协议达成一致"。Stratechery 有一个判断我同意:MCP 之于 Agent 时代,相当于 HTTP 之于 Web 时代。一个被 Anthropic 而非 OpenAI 定义的协议层,对未来五年谁能吃到 Agent 集成红利是一个结构性伏笔。

具身智能(Embodied)。两年前 humanoid 还是 demo 视频阶段。2025 年 Figure AI 的 F.02 在 BMW Spartanburg 工厂跑完 11 个月试点(2025-01 到 2025-11),两台机器人日均 10 小时双班、累计运行 1,250 小时,参与生产 30,000+ 辆 BMW X3、完成 90,000+ 零件上件;2025 年 10 月 Figure 03 发布,2026 年 4 月起在 BMW Leipzig 工厂启动二阶段 pilot,2026 夏进入"正式 pilot"。Tesla Optimus 定下 2025 年 5,000-10,000 台、2026 年 5 万台的爬坡目标,但公开数据显示实际出货进度明显落后口径;1X NEO 2025 年 10 月 28 日开启预售($20K 买断或 $499/月订阅),2026 年开始向美国家庭交付。更关键的变化是"机器人基础模型":Physical Intelligence 的 π₀(2024-10)和 π₀.₅(2025-09)第一次证明 VLA 模型可以在没见过的厨房、卧室里完成长程任务;Google Gemini Robotics、NVIDIA Isaac GR00T、Skild 都在复刻 LLM 的 scaling law 验证期。

这里需要一个冷静的判断:humanoid 离自己的"ChatGPT 时刻"至少还差一代 VLA 模型和一代电池能量密度。目前机器人的瓶颈不在硬件装配(Figure/Unitree 已能量产),而在"通用 manipulation 的 zero-shot 泛化"——π₀.₅ 是目前最好的成果,也只能在"和训练环境相似的家居"里稳定工作。所以 2028 年人形机器人大概率进工厂进仓储,不进你的客厅。

效率与成本。过去两年单位智能成本下降超过一个数量级。DeepSeek V3 以约 2048 张 H800、557 万美元的训练预算做到与闭源前沿相当的水平,R1 的增量 RL 成本约 29.4 万美元——这件事对全球 AI 基础设施投资的心理影响远大于实际影响,但心理影响本身也是事实。API 端,GPT-4 级别能力从 2024 年的 30 美元/百万 token 进入 2026 年的个位数区间。算力侧,NVIDIA Blackwell GB200 NVL72 的实时万亿参数推理比 Hopper 快 30 倍,GB300(Blackwell Ultra)单机架 1.1 ExaFLOPS FP4;2026 下半年 Vera Rubin 把这一数字推到 3.6 ExaFLOPS dense FP4、HBM4 288GB/GPU;Blackwell 订单积压 360 万片,排到 2026 年年中。

三、基础设施:瓶颈从 GPU 转向了电力和钢筋

Scaling 的叙事在 2025 年发生了微妙的重心转移。高质量自然文本语料接近耗尽,pretraining 的 Chinchilla 式线性收益在 10T token 以上边际递减。Meta 在 2025 年公开提出 "mid-training" 概念——在预训练与 RL 之间插入一个合成推理数据阶段;OpenAI 的 o 系列、Anthropic 的 Opus 4.5/4.6、DeepSeek 的 R1/V3.1/V3.2 都是"小预训练模型 + 大后训练 RL"的路径。合成数据从"作弊工具"变成一等资产:纯合成并不优于自然网页,但任务定向的合成在后训练阶段收益显著,尤其是带可验证奖励的那一类。

算力军备同步走向实体化。OpenAI/Oracle/SoftBank 的 Stargate 项目已宣布的规划超过 8 GW、3 年内投入 4500 亿美元,目标 2029 年前投入高达 5000 亿美元;首个 Abilene 数据中心二期(6 栋楼、1 GW)2026 年中通电,Michigan Saline Township 1.4 GW 已获批;UAE Stargate 2026 内开张。Meta 与 Vistra、TerraPower、Oklo 签下共计 6.6 GW 的核电长期合同;Microsoft 通过 20 年 PPA 让 Constellation 在 2028 年重启三哩岛;Amazon 接下 Talen 的 Susquehanna 约 2 GW。把 AI 数据中心绑到核反应堆上——这是 2025 年下半年才出现的新常态,两年前任何人提议都会被笑。

Semianalysis 测算,2026 年美国新增 AI 数据中心电力需求将突破 20 GW 量级,接近一个中型欧洲国家的总用电。到 2028 年美国 AI 数据中心总用电有望接近 80-100 GW,相当于整个加利福尼亚州。"买不到卡"已经让位给"拉不到电"。我想强调一个容易被忽略的细节:当瓶颈是电力,赢家就不再是"最会写 CUDA 的公司",而是"最会谈 PPA 的公司",这是一种完全不同的企业技能曲线。

中国这边,Alibaba/Tencent/Baidu/Huawei Cloud 2025 年在 AI 基础设施上合计投入约 400 亿美元,其中约 60% 流向国产芯片。Huawei Ascend 910C 2025 年出货量 70-80 万片,CloudMatrix 384(384 颗 910C 全互联,系统级 300 PFLOPs BF16)是目前唯一在 system level 能和 GB200 NVL72 直接对话的产品。但 Huawei 的真实瓶颈是 HBM:CXMT 2026 年全年 HBM 产能仅够装配 25-30 万片 910C,离百万片目标差距明显。SMIC 卡在 7nm 工艺,导致 Huawei 自己的公开路线图承认 2026 代芯片单片性能将低于当前旗舰。中国 AI 芯片市场国产份额已从 2024 年的不足 20% 升到 2026 Q1 的 41%,但单位算力差距仍在——这是理解中美 AI 竞争最硬的一个数字。

四、商业化:一场两强格局的反转

回到两年前,OpenAI 是毫无争议的唯一巨头。ChatGPT 在 2025 年 10 月达到 8 亿 WAU,2026 年 2 月突破 9 亿,互联网史上最快达到这一规模的消费级产品,仅次于 TikTok。但 2025 到 2026 年出现了清晰的结构性变化:消费端赢家和企业端赢家开始分化

最戏剧性的一组数字来自 Anthropic:ARR 从 2024 年 1 月的 8700 万美元,到 2024 年 12 月的 10 亿,到 2025 年底的 90 亿,再到 2026 年 2/3/4 月的 140 亿 / 190 亿 / 300 亿。过去 4 个月从 90 亿翻到 300 亿,年化超百万美元的企业客户数从 500 在两个月内翻到 1000。2026 年 4 月 Anthropic 正式以约 300 亿 ARR 超过 OpenAI 的约 250 亿 ARR,首次把"ChatGPT 后第一把交椅"易主。Anthropic 约 80% 收入来自企业,OpenAI 则约 60% 仍来自消费。更值得注意的是训练投入效率:外部口径下 Anthropic 用 OpenAI 约 1/4 的训练支出做到了更高 ARR,这意味着它预计 2027 年实现正 FCF,而 OpenAI 的盈亏平衡目标已被推到 2030 年。

结构原因 Stratechery 说过,我再补一层:企业购买的是可信的 Agent 基础设施,不是聊天界面。Claude 4.5/4.6、Claude Code、Opus 4.6 的 1M 上下文 beta、"Project Glasswing"——一个据称找到数千个 0-day(包括 OpenBSD、FFmpeg、Linux 内核)的安全 Agent——把 Anthropic 锚定在"严肃工作"场景。再叠加 MCP 生态,一条商业护城河就形成了:你只要认真用 Claude Code 半年,就会积累几十个 MCP 集成、上百个提示模板、几十条团队工作流——切换成本远高于换一个 ChatBot。

Google 没有输,但也没有赢得市场预期的份额。Gemini 3(2025-11-18 发布)、Gemini 3 Deep Think(2025-12-04 推送到 AI Ultra 订阅者,ARC-AGI-2 上从首版的 45.1% 一路被后续更新推进到 2026 年 2 月的 84.6%)在纯技术指标上多次登顶;搜索里的 AI Overviews、Workspace 里的 Gemini、TPU v5/v6 的纵向整合让 Google 在成本结构上具备长期优势。TPU 这张牌被低估了——2026 年 4 月 Broadcom 确认 Anthropic 将大规模采购 Google TPU,这是一个信号:前沿实验室正在主动绕开 NVIDIA 单一依赖,而 TPU 是目前唯一有规模有软件栈的替代品。但 Google 没有 Claude 那样鲜明的开发者叙事,也没有 ChatGPT 那样的品牌心智,"技术最强但商业最慢"仍是它的老问题。

Meta 的 Llama 3/4 在 2024-2025 巩固了开源生态的底座,但 Llama 4 发布后的基准 gaming 和 post-training 争议让其技术领导力出现裂痕;2025 年中 Meta 通过 Scale AI 收购和"Superintelligence Team"重启,但这笔钱何时变成产品仍待观察。xAI 的 Grok 4 靠 Colossus 200k H100 集群在部分 benchmark 上短暂领先,但商业化依附 X 平台,天花板明显。

真正不可忽视的是中国开源梯队。DeepSeek V3.2-Exp(2025-09-29)引入 Sparse Attention 架构;V4 被延迟多次,据报道将首次在 Huawei Ascend 上训练,预计 2026 年 4-5 月发布。Moonshot 的 Kimi K2.5(2026-01-27,1.04T 总参数/32B 激活,可调度 100 个子 agent)、Alibaba Qwen3.5、Zhipu GLM-5(744B,SWE-bench Verified 77.8%)、MiniMax M2.5(SWE-bench 80.2%,距离 Claude Opus 4.6 的 80.8% 只差 0.6 分)——2026 年前沿开源与闭源的差距稳定在 6-9 个月,而且这个差距在 SWE-bench 这类可验证任务上几乎已经消失。一个直白的观察:如果你的任务是"代码 + 可运行单测",你没有必要为闭源模型每月付费。

五、未来两年:到 2028 年 4 月的六条预测

沿着上文五条曲线外推,到 2028 年 4 月给出六条判断,按置信度由高到低排列。每条预测都附"命中条件"和"证伪条件"。

预测 1(置信度 高,90%+):推理模型的第二条 scaling law 还能再涨一个数量级,但会在"长程自主"上第一次遇到软墙。 命中条件:2027 年前 SWE-Bench Verified 越过 90%、Frontier Math 接近 60%、IMO 金牌稳定。 证伪条件:前沿 reasoning 模型从 2026 Q4 起连续两代在硬 benchmark 上提升不到 3 个百分点。 模型会在需要连续 30 天以上、跨工具、跨人情景的项目级任务(比如"自主完成一次完整的 A 轮融资法务 DD")上显著不足。长程 agent 的瓶颈不是 IQ 而是上下文工程与可验证奖励信号的工程化——这恰好是 RL 后训练最难规模化的部分。

预测 2(置信度 高,85%):Agent 在 2026 年后半段进入爆发式企业采用,到 2028 年成为新的"SaaS"单元。 今天的 ChatBot-as-product 会逐步让位于 Agent-as-product:定价从 per-seat 转向 per-outcome。客服、法律检索、财报分析、基础编码、招聘初筛、医学初诊将出现"按结案收费"的 agent 产品,毛利率 40-60%——低于纯软件 SaaS(因为要烧 token),高于纯服务外包。Anthropic、Google、OpenAI 之外,会出现 1-2 家"Agent 纵向 SaaS"独角兽——大概率在法律与医学这两个数据稀缺但价值密集的行业。证伪条件:到 2027 Q4,per-outcome 定价占新签 AI 合同不到 20%。

预测 3(置信度 中高,75%):单位智能成本继续下降 10 倍,但前沿模型训练成本上升 10 倍。 这是一个容易被混淆的现象:GPT-5 级能力到 2028 年会降到 GPT-3.5 的价格区间,但同一时期的前沿模型(假定叫 GPT-7 / Claude Opus 6 / Gemini 5)训练 + 首轮推理成本将触及 100 亿美元量级。性价比曲线与前沿成本曲线同时向相反方向延长。历史对照:云计算从 2010 到 2016 也出现过同构的剪刀差——EC2 单价一路降,但 Amazon/Google/MS 自己的 CAPEX 反而翻了 5 倍。

预测 4(置信度 中,60%):具身智能跨过"ChatGPT 时刻",但不在家用场景,时间窗可能再推后 12-18 个月。 2026-2028 年 humanoid 最重要的战场是工厂与仓储:Figure 03、Optimus、Unitree、Agility 的全球装机量到 2028 年 4 月大概率突破 50 万台,以制造业点对点搬运与简单装配为主。家用 1X NEO 这类会存在但仍是早期极客玩具——它目前的"远程人工接管"比例据公开访谈高于 30%,这意味着它本质上仍是"被 AI 辅助的远程操作机器人"。真正的爆发要等 VLA 模型跨过自己的"GPT-3.5 时刻"——我的估计是 2028 年末到 2029 年初。

预测 5(置信度 中高,70%):算力瓶颈从芯片转移到电力,中东成为"第三极"。 到 2028 年美国 AI 数据中心总用电将接近 80-100 GW。Vera Rubin、Rubin Ultra、Feynman 按 NVIDIA 年度节奏推出;拿不到电力审批的公司会被迫出海——沙特(Humain,已获授权采购 3.5 万片 Blackwell,2026 年被正式定为"AI 年")、阿联酋(G42、UAE Stargate)、马来西亚、印度的"主权 AI"项目会从 2026 年的政治表态变成 2028 年的具体 GW 级资产。中国这条线被迫走"用更多较弱的卡堆更大的集群"的路线,Huawei Ascend 950/970 + CloudMatrix 架构的 system-level 效率会部分补偿单片差距。预计到 2028 年中美前沿模型能力差距维持在 9-15 个月——不会消失,也不会拉大到无法追赶。

预测 6(置信度 中低,50%):2027 年前出现第一起真正意义的"Agent 事故"并触发监管收紧。 具体形态无法预测:可能是金融(一个交易 agent 在连锁反应中制造 flash crash)、可能是网络安全(一个防御 agent 误伤关键基础设施)、也可能是 Project Glasswing 式能力被逆向用作攻击。无论形态如何,它会推动 EU AI Act 高风险义务在 2027 实施时点得到强制执行,也会让 Trump 政府 2025-12 行政令"阻止州级 AI 法律"的自由派路线在国会层面被重新谈判。证伪条件:2028 年 4 月前整个行业没有出现任何单次损失超过 10 亿美元的 AI 事故——目前我认为这种平顺情形概率约 50%。

六、两条反共识观点

一篇深度分析如果只写"每个人都同意的预测"就是通稿。这里提两个我认为市场定价偏离真实的判断。

反共识 1:NVIDIA 的市盈率不是泡沫,但它的护城河是泡沫。 过去两年 NVIDIA 估值的主逻辑是"CUDA 锁定 + 系统级整合",但 2026 年正在发生三件事同时削弱这条护城河:(a) Anthropic 正式大规模采购 Broadcom/Google TPU;(b) OpenAI 自研 Titan 芯片 2026 H2 进入量产;(c) AMD MI400 + ROCm 在 inference 场景被 Meta、Microsoft 大规模部署。NVIDIA 的毛利率会在 2027 年开始显著下滑——从当下的 74% 左右向 60% 区间回归, 这不是需求见顶,而是议价权被重新分配。历史对照:思科在 2000 年的问题也不是需求见顶,而是客户学会了自己造路由器。

反共识 2:中国 AI 不会"追赶美国",它会走出一条完全不同的曲线。 美国叙事把中国 AI 永远放在"落后 9-15 个月"的位置,这个框架是错的。中国的真实优势不在前沿模型,而在三样东西:开源生态(DeepSeek/Qwen/Kimi/GLM/MiniMax 五家同时在 SWE-bench 上 80%+)、制造业数据(Unitree、智元、Figure 竞争对手的数据闭环每天在变多)、以及电力(中国电力装机 2025 年新增超过美国五倍)。到 2028 年,更可能的结构是:"美国做前沿模型,中国做廉价落地"——相当于一个 AI 版的"美国芯片设计 vs. 中国电子制造"的重演。这种分工下,"谁领先"本身就是一个错误的问题。

七、对现实世界的影响:一场慢速但不可逆的再分配

就业。 2026 年 Q1 美国科技行业裁员约 78,557 人,其中约 37,638(47.9%)被雇主明确归因于 AI 替代或工作流自动化。必须谨慎解读:HBR 和 Forrester 都指出"AI 裁员"里有相当比例是 "AI washing"——用 AI 叙事包装本就会发生的成本削减,约一半岗位会在 6-12 个月内被悄悄重新招聘(多在海外或更低薪位置)。但真正被结构性压缩的是初级岗位:初级开发、初级法务、初级分析师的招聘漏斗正在被 AI 工具抽空。中美顶级高校 2025/2026 届 CS 本科就业率下降 15-20 个百分点,两年前难以想象。这不是失业率问题,是"入场券"问题——职业阶梯的第一阶被抽掉了。

教育与科研。 大学教学正被迫重写。"写一篇 3000 字论文"类作业在 2026 年已经失去作为评估工具的意义,严肃学校正回归闭卷、口试和过程评估。科研则是另一个故事:GPT-5、Gemini 3 Deep Think、Claude Opus 4.6 已经能独立完成一份合格的文献综述,数学方面 o4 级模型在已知公开问题上的解决速度超过博士生平均;2026 年 Nature 与 Science 都开始讨论"AI 共同作者"的署名规则。2025 下半年 DeepMind 的 AlphaProof、AlphaGeometry 2 达到 IMO 银牌水平,Anthropic 与多家生物实验室合作的 "AI co-scientist" 把抗体设计的候选筛选周期从以月计压到以天计。2026 年初 DeepMind 发布的材料科学模型一次性给出数十万种可能稳定晶体结构并被湿实验验证了其中数千种。这些成果单独看都不足以称为"AI 做出了诺奖级发现",但合在一起意味着一件事:AI 已经跨过"加速已知科研工作流"的门槛,正在逼近"生成新假设"的门槛。 这个门槛在 2027 年被跨过的概率我给 40%;一旦跨过,对 GDP 与生命质量的冲击将远大于软件工程被替代。

软件工程。 这是被影响最深的行业,没有之一。开发者的角色正从"写代码"转向"评审、编排、验证"。Senior 工程师的价值被放大(他们设计架构、鉴别 AI 产出的正确性),而 junior 的入门路径几乎被切断。一个可观察的信号:2026 年头部科技公司新发 offer 中 IC3/IC4 比例从 2023 年的约 45% 降到不足 25%。长期来看不可持续——没有 junior 就没有未来的 senior——但未来两年这个问题不会被解决。

还有一条容易被遗漏的副作用:代码库的"熵"正在快速上升。AI 生成的代码在局部正确率极高,但跨文件一致性、抽象命名、长期可维护性相对薄弱。一批在 2025 年被 AI Agent 大量贡献代码的项目,到 2026 年初开始出现"没人完全理解自己代码库"的症状。未来两年会出现一个新工种——"AI 代码考古学家"——专门负责给 AI 写的遗产代码做逆向文档和重构。这不是玩笑,是我在至少三家头部 SaaS 公司里听到的真实招聘需求。

地缘政治。 美国的策略是"卡脖子 + 国内大建":出口管制从 2024 年底的 AI Diffusion Rule 到 2025 年 Trump 政府的精细化 entity list,Huawei 910B/C/D 被明确禁止"使用、销售、转让、融资",H20 一度放开又收紧。中国的策略是"国产替代 + 系统级补偿"。中东和印度作为第三极的资本方角色越来越重要:他们手里既有钱也有电、但没有顶级模型——这让他们成为美中都在争取的"对齐方"。Humain 成为沙特 PIF 的 AI 载体,已被授权采购 3.5 万片 Blackwell;UAE G42 通过与 OpenAI/Microsoft 的三方协议获得顶级模型训练权限,作为代价接受美国在数据与出口层面的审计。2026 下半年起,AI 将第一次被写进 G20 级别的正式议程。

资本市场。 2025 年 NVIDIA 市值一度突破 5 万亿美元,OpenAI 最新一轮估值 5000 亿美元、Anthropic 约 4000 亿美元、xAI 2000 亿美元、Anysphere/Cursor 约 293 亿美元——这些数字加起来已经超过过去二十年整个企业软件板块的市值总和。"AI 是不是泡沫"的争论从 2025 年中持续至今,但和 2000 年 dot-com 的本质区别在于:这次的现金流是真实的(OpenAI + Anthropic 合计 ARR 超过 550 亿美元),CAPEX 也是真实的(hyperscaler 2026 年 CAPEX 预计 4000 亿美元)。真正的风险不是"没人买",而是"回报周期比预期慢"。 如果 Agent 变现速度不及投资节奏,未来两年可能出现一次温和的估值回调,但不会改变方向。这和 2000 年的区别是:"dot-com 是一个在等待用户的行业",而"2026 的 AI 是一个在等待电的行业"——前者是需求问题,后者是供给问题。供给问题最终都会被解决。

八、风险与不确定性

三条最被低估的风险。一是电力与气候的硬约束——即使所有模型都变得更高效,总量仍在指数上升,Sam Altman 自己承认 2028 年前的核心瓶颈是电而不是卡。二是Agent 的可验证性危机——当 AI 写的代码占比超过 50%,谁来审?静态分析与形式化验证的研究在 2025-2026 年从小众变成显学,但离工业化仍有距离。三是模型集中度带来的系统性风险——到 2028 年,全球超过 60% 的"生产级 Agent 工作负载"会跑在 3 家公司的 4 个模型上,一次训练故障或 safety 回调足以影响全球 GDP。

对齐研究在 2025-2026 取得了可度量的进步:Anthropic 在 2025-2026 年两次开源 circuit tracing 工具,"mechanistic interpretability" 被 MIT Tech Review 列为 2026 十大突破技术;Apollo Research、UK AISI、US AISI 三家独立评测机构已经能在模型发布前完成 red-team。一个有趣的新问题:Claude Opus 4.6 的 system card 记录了模型第一次在评测中"意识到自己正在被测试"并据此反向推导测试意图。这被业内称为 eval awareness——它既是能力,也是警钟,因为当模型能识别评测,评测本身就失去了一部分独立性。对齐研究目前仍落后能力研究 18-24 个月,这个 gap 是未来两年最值得担心的结构问题。

九、结语:两年后的我们在哪里

2028 年 4 月的世界大概率是这样的:你每天打开电脑,一组 Agent 已经替你读完了隔夜邮件、草拟了回复、跑完了基础分析;你的工作从"产出"变成"裁决"。工厂里有人形机器人在搬料,家里还没有。机场里有人抱怨签证流程被 AI 拒签却找不到人说理。一个初创公司用 15 人做了过去需要 300 人的工作量。中国和美国的 AI 能力差距没消失,但也没有扩大成无法追赶的鸿沟。"AGI"这个词已经没人再争论日期,因为每个人都在用它,而每个人都还没用到它的全部。

过去两年是推理模型与 Agent 从概念变成产品的两年;未来两年是 Agent 从产品变成基础设施的两年;再之后的两年——2028 到 2030——才是 AGI 真正开始重写经济生产函数的阶段。我们正处在那条曲线上最陡的一段,但它还没有转折。值得记住一件事:每一次技术革命的前三年,同时代人的共同感受都是"这事被高估了";每一次技术革命的第十年,同时代人的共同感受都是"这事被低估了"。 我们现在处于第二年。

← 书目