2016 年 3 月,世界惊奇地见证了 DeepMind 的 AlphaGo 击败了史上最伟大的围棋手之一——李世乭。这是人工智能领域的里程碑式成就,常被称为 AI 的“斯普特尼克时刻”。AlphaGo 的胜利揭示了深度神经网络和强化学习的惊人力量。但其中有一个关键前提: 该系统是从人类学习的。它的“策略网络”基于一个庞大的专家棋谱数据集进行训练,其中包含超过 3000 万步职业棋手的着法。AlphaGo 通过模仿学习。

这自然引出了一个更深刻、更具挑衅性的问题:

如果一个 AI 能在没有任何人类指导的情况下,仅凭游戏规则,从零开始学会下围棋,会怎样?

一个算法能否通过自我对弈,仅凭经验提升自己?它会在缺乏人类智慧的情况下停滞不前,还是能超越人类最精妙的策略?

DeepMind 于 2017 年发表的论文 《不借助人类知识掌握围棋》 (“Mastering the game of Go without human knowledge”) , 以非凡的清晰度回答了这些问题。论文介绍了 AlphaGo Zero——一个从完全零基础的初学者开始,却迅速进化为超人类棋手的系统。通过数百万局自我对弈,它成为了自己的老师——不仅重新发现了数百年积累的围棋知识,还创造出令顶尖棋手都震惊的全新策略。

本文将深入探讨 AlphaGo Zero 的工作原理、学习过程,以及为何这种“白板” (tabula rasa) 式的方法标志着向真正通用人工智能迈出的里程碑。

背景: AlphaGo 的人类传承#在理解 AlphaGo Zero 的革命性之前,让我们先回顾一下击败李世乭的 AlphaGo Lee 是如何工作的。

AlphaGo Lee 使用了两个神经网络:

策略网络 (Policy Network) — 预测最佳下一步着法,通过监督学习在数百万局人类棋谱上训练而成。价值网络 (Value Network) — 评估棋盘局面,估算该局面的获胜概率。它通过强化学习,在策略网络与自身的对弈中进行训练。这两个网络与 蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 算法协同工作。MCTS 充当 AI 的“前瞻”功能,探索未来可能的着法序列。策略网络引导搜索朝向有希望的着法,而价值网络则判断搜索结果的局面质量。

虽然这一系统强大,但它严重依赖人类数据。而这种依赖带来了挑战: 专家数据集成本高昂、存在偏见,或在许多领域根本不可得。更糟的是,模仿学习设定了上限——AI 的水平仅能达到其学习样本的水平。AlphaGo Zero 的设计目标,就是打破这一上限。

核心思想: 从零开始学习#AlphaGo Zero 完全抛弃人类数据。它从零知识开始——既不了解基本策略,也不知道常见着法,仅掌握围棋的规则。从这个空白的起点出发,它使用 纯强化学习与自我对弈 进行学习。

其核心是一个简单而深刻的循环: 与自己对弈,从结果中学习并不断改进。 每一次迭代都会产生一个更强的棋手,而这个更强的棋手又为下一轮迭代生成更优的训练数据。随着时间推移,系统会变得异常强大。

让我们具体拆解一下这个自我强化的循环。

单一统一的神经网络#与之前版本拥有独立策略网络和价值网络不同,AlphaGo Zero 使用一个 单一、统一的神经网络 \(f_{\theta}\),它接收原始棋盘状态 s 作为输入,并输出:

着法概率 (\(p\)) — 为每个可能着法分配概率的向量。局面价值 (\(v\)) — 一个标量,用于估计当前玩家获胜的概率。这种“双头”架构使任务之间的学习可以互相促进,从而形成有益于规划与评估的深度表示。

该网络采用深度 残差网络 (ResNet) 架构——一种现代设计,利用跳跃连接帮助极深模型有效学习。由于围棋棋盘的结构类似图像 (19×19 网格) ,这种可视化模型在识别棋子空间布局方面表现极佳。

自我对弈学习循环#AlphaGo Zero 的训练流程是一个持续反馈循环,由三大核心部分组成: 自我对弈 (self-play)、搜索 (search) 和 训练 (training) 。

第 1 步: 自我对弈 — 生成经验#当前最强的网络与自身进行完整对局。对于每个局面,它不仅依赖其直接预测的着法概率,还会执行 蒙特卡洛树搜索 (MCTS) 来优化决策。搜索通过模拟未来的棋局构建博弈树,由网络预测结果引导。

图 1 | 自我对弈强化学习流程。 系统与自己对弈 (左) ,然后训练其神经网络以匹配改进后的搜索结果 (右) 。

每次 MCTS 的结果是一组 优化后的着法概率 \( \pi \),通常远强于网络的初始预测 (\(p\))。这些概率反映了 AlphaGo Zero 在该局面下的“前瞻思考”所得。

第 2 步: 搜索 — 用 MCTS 进行前瞻思考#在每一步棋中,AlphaGo Zero 的 MCTS 会经历以下四个阶段:

图 2 | 蒙特卡洛树搜索 (MCTS)。 (a) 使用历史动作价值和探索奖励选择最有潜力的着法。(b) 扩展未探索的局面并通过神经网络评估。(c) 将评估结果反向传播,更新动作价值。(d) 根据改进后的访问计数概率选择着法。

选择 (Select): 从根状态开始,搜索挑选能最大化 \(Q + U\) 的着法,其中 \(Q\) 为动作平均价值,\(U\) 为鼓励探索的加成项。扩展与评估 (Expand and Evaluate): 当搜索到达未探索的节点时,扩展该节点并用神经网络评估,获得策略 \(P\) 与价值 \(V\)。反向传播 (Backup): 将评估结果 \(V\) 沿访问过的边反向传播,更新这些边的平均值与访问次数 \(N\)。执行 (Play): 当完成数千次模拟 (每步约耗时 0.4 秒) 后,MCTS 返回按访问次数加权的搜索概率。最终着法从这些概率中采样,以增加对弈的多样性。这一过程以神经网络引导的精准评估取代传统的随机模拟 (rollouts) ,既简化了实现,又显著提升了稳定性。

第 3 步: 训练 — 从经验中学习#自我对弈结束后,每个局面都会生成一个三元组 \((s, \pi, z)\),其中:

s 为棋盘状态;\( \pi \) 为从 MCTS 得到的改进后策略;z 为最终比赛结果 (胜为 +1,负为 −1) 。新一轮网络训练以这些数据为基础,使预测与更优搜索结果对齐。训练目标是最小化以下复合损失函数:

\[

l = (z - v)^2 - \boldsymbol{\pi}^{\mathrm{T}} \log \boldsymbol{p} + c \|\boldsymbol{\theta}\|^2

\]价值损失 \((z - v)^2\): 使网络预测结果与实际胜负一致。策略损失 \(-\pi^T \log p\): 教会网络模仿改进后的 MCTS 策略。正则化项 \(c\|\theta\|^2\): 通过权重衰减防止过拟合。随着每一轮循环,网络实力不断增强,并成为下一次自我对弈的新基准。它实际上是在与逐渐强大的自己进行训练。

结果: 三天内从零到超人#AlphaGo Zero 的学习速度与规模令人惊叹。

仅 三天 内,它完成 490 万局自我对弈 , 并持续提升。图 3 展示了 AlphaGo Zero (蓝色) 与基于人类数据训练的模型及旧版 AlphaGo 的表现对比。

图 3 | AlphaGo Zero 性能表现。 强化学习 (蓝色) 相比监督学习 (粉色) 和 AlphaGo Lee (虚线) 获得更高的 Elo 等级分与更低的预测误差。

关键里程碑:

36 小时后,AlphaGo Zero 实力超过 AlphaGo Lee (击败李世乭的版本) 。72 小时后,在锦标赛时间控制下,AlphaGo Zero 以 100–0 击败同版本 AlphaGo Lee。惊人的是,这一切仅使用 4 个 TPU 的单机完成,而 AlphaGo Lee 需要 48 个 TPU 的分布式系统。超越人类模仿#DeepMind 还训练了一个基于人类棋谱数据的网络作为对照。该网络起初能很好地模仿人类下法,但很快在实战能力上被远远甩开。

结论是: 人类数据并不是通向精通的最佳基础。通过完全依赖自身经验,AlphaGo Zero 摆脱模仿偏差,发现了人类从未提出的、更高效的新策略。

在对不同网络架构的系统对比中,AlphaGo Zero 的设计优势进一步得到验证。

图 4 | 神经网络架构对比。 结合策略与价值头的“双头残差”设计,实现了最高的对弈实力与最精准的评估。

知识的重新发现与重塑#AlphaGo Zero 不仅学会了下棋——它还重新发现了人类围棋策略的精髓 , 并超越了人类知识的界限。

图 5 | AlphaGo Zero 学到的围棋知识。 (a) 训练中重新发现的经典 定式。 (b) AlphaGo Zero 创造的区别于人类下法的变招。 (c) 自我对弈棋局样本,展示了从新手到大师的实力演化。

在训练初期,它的棋局如同新手——聚焦于局部吃子。到第 19 小时,它已展现出对地盘、势力和平衡的理解。到第 70 小时,它的棋局体现出深刻的战术与战略和谐。它自然掌握了围棋的关键概念: 布局 (fuseki)、手筋 (tesuji)、劫争 (ko fights)、棋形 (shape) 与 先手 (sente)——这一切皆通过自我对弈自然涌现。

更令人赞叹的是,它创造了职业棋手前所未见的独特 定式 (角部走法序列) 。人类专家开始研究这些定式,从 AlphaGo Zero 学习。机器由此成为老师。

最终运行: 四十天登顶#DeepMind 将实验进一步延伸: 更大的 AlphaGo Zero 版本训练了 40 天 , 采用 40 层残差网络 。 它完成 2900 万局自我对弈 , 达到前所未有的水平。

图 6 | 最终性能。 AlphaGo Zero (蓝色) 取得史上最高 Elo 分数,超越所有先前版本的 AlphaGo 及其他顶级程序。

AlphaGo Zero (40 天运行版) : 5185 EloAlphaGo Master: 4858 EloAlphaGo Lee: 3739 EloAlphaGo Fan: 3144 Elo即使剥离搜索功能,仅凭原始神经网络 (不使用 MCTS) ,其得分仍超过 3000 Elo——这一职业级表现完全源自直觉。

在 100 局的对战中, AlphaGo Zero 以 89–11 击败 AlphaGo Master , 令人信服地证明了无须人类引导的自学习不仅可行,而且更优。

结论: 自主智能的黎明#AlphaGo Zero 不仅是棋盘上的胜利,更是新型人工智能的原型。它展示了系统可以从零知识出发,仅依靠规则与试错学习的能力,达到超人水平。

这种方法具备根本的通用性: 不依赖人工特征或专家样例。只要有已知规则与模拟机制,这一方法便可加速无数领域的发现——从科学研究与机器人技术,到工业控制与战略决策。

摆脱人类束缚后,AlphaGo Zero 揭示了关于智能的深刻真理: 最先进的策略有时并非源自模仿,而是源自自我发现。

这台从零开始的机器,重新发现并丰富了人类数百年的围棋智慧。在短短数日间,它重塑了这一古老的游戏。通过此过程,AlphaGo Zero 让我们窥见了 AI 的未来——一个学习始于“白板”的时代,人类知识的边界不再是限制,而是机器超越的起点。