AlphaGo Zero：AI 如何从零开始掌握围棋-beat365网站假的吗-beat365网站假的吗-det365娱乐官网登录-365亚洲指数

2016 年 3 月，世界惊奇地见证了 DeepMind 的 AlphaGo 击败了史上最伟大的围棋手之一——李世乭。这是人工智能领域的里程碑式成就，常被称为 AI 的“斯普特尼克时刻”。AlphaGo 的胜利揭示了深度神经网络和强化学习的惊人力量。但其中有一个关键前提: 该系统是从人类学习的。它的“策略网络”基于一个庞大的专家棋谱数据集进行训练，其中包含超过 3000 万步职业棋手的着法。AlphaGo 通过模仿学习。

这自然引出了一个更深刻、更具挑衅性的问题:

如果一个 AI 能在没有任何人类指导的情况下，仅凭游戏规则，从零开始学会下围棋，会怎样？

一个算法能否通过自我对弈，仅凭经验提升自己？它会在缺乏人类智慧的情况下停滞不前，还是能超越人类最精妙的策略？

DeepMind 于 2017 年发表的论文《不借助人类知识掌握围棋》 (“Mastering the game of Go without human knowledge”) , 以非凡的清晰度回答了这些问题。论文介绍了 AlphaGo Zero——一个从完全零基础的初学者开始，却迅速进化为超人类棋手的系统。通过数百万局自我对弈，它成为了自己的老师——不仅重新发现了数百年积累的围棋知识，还创造出令顶尖棋手都震惊的全新策略。

本文将深入探讨 AlphaGo Zero 的工作原理、学习过程，以及为何这种“白板” (tabula rasa) 式的方法标志着向真正通用人工智能迈出的里程碑。

背景: AlphaGo 的人类传承#在理解 AlphaGo Zero 的革命性之前，让我们先回顾一下击败李世乭的 AlphaGo Lee 是如何工作的。

AlphaGo Lee 使用了两个神经网络:

策略网络 (Policy Network) — 预测最佳下一步着法，通过监督学习在数百万局人类棋谱上训练而成。价值网络 (Value Network) — 评估棋盘局面，估算该局面的获胜概率。它通过强化学习，在策略网络与自身的对弈中进行训练。这两个网络与蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 算法协同工作。MCTS 充当 AI 的“前瞻”功能，探索未来可能的着法序列。策略网络引导搜索朝向有希望的着法，而价值网络则判断搜索结果的局面质量。

虽然这一系统强大，但它严重依赖人类数据。而这种依赖带来了挑战: 专家数据集成本高昂、存在偏见，或在许多领域根本不可得。更糟的是，模仿学习设定了上限——AI 的水平仅能达到其学习样本的水平。AlphaGo Zero 的设计目标，就是打破这一上限。

核心思想: 从零开始学习#AlphaGo Zero 完全抛弃人类数据。它从零知识开始——既不了解基本策略，也不知道常见着法，仅掌握围棋的规则。从这个空白的起点出发，它使用纯强化学习与自我对弈进行学习。

其核心是一个简单而深刻的循环: 与自己对弈，从结果中学习并不断改进。每一次迭代都会产生一个更强的棋手，而这个更强的棋手又为下一轮迭代生成更优的训练数据。随着时间推移，系统会变得异常强大。

让我们具体拆解一下这个自我强化的循环。

单一统一的神经网络#与之前版本拥有独立策略网络和价值网络不同，AlphaGo Zero 使用一个单一、统一的神经网络 \(f_{\theta}\)，它接收原始棋盘状态 s 作为输入，并输出:

着法概率 (\(p\)) — 为每个可能着法分配概率的向量。局面价值 (\(v\)) — 一个标量，用于估计当前玩家获胜的概率。这种“双头”架构使任务之间的学习可以互相促进，从而形成有益于规划与评估的深度表示。

该网络采用深度残差网络 (ResNet) 架构——一种现代设计，利用跳跃连接帮助极深模型有效学习。由于围棋棋盘的结构类似图像 (19×19 网格) ，这种可视化模型在识别棋子空间布局方面表现极佳。

自我对弈学习循环#AlphaGo Zero 的训练流程是一个持续反馈循环，由三大核心部分组成: 自我对弈 (self-play)、搜索 (search) 和训练 (training) 。

第 1 步: 自我对弈 — 生成经验#当前最强的网络与自身进行完整对局。对于每个局面，它不仅依赖其直接预测的着法概率，还会执行蒙特卡洛树搜索 (MCTS) 来优化决策。搜索通过模拟未来的棋局构建博弈树，由网络预测结果引导。

图 1 | 自我对弈强化学习流程。系统与自己对弈 (左) ，然后训练其神经网络以匹配改进后的搜索结果 (右) 。

每次 MCTS 的结果是一组优化后的着法概率 \( \pi \)，通常远强于网络的初始预测 (\(p\))。这些概率反映了 AlphaGo Zero 在该局面下的“前瞻思考”所得。

第 2 步: 搜索 — 用 MCTS 进行前瞻思考#在每一步棋中，AlphaGo Zero 的 MCTS 会经历以下四个阶段:

图 2 | 蒙特卡洛树搜索 (MCTS)。 (a) 使用历史动作价值和探索奖励选择最有潜力的着法。(b) 扩展未探索的局面并通过神经网络评估。(c) 将评估结果反向传播，更新动作价值。(d) 根据改进后的访问计数概率选择着法。

选择 (Select): 从根状态开始，搜索挑选能最大化 \(Q + U\) 的着法，其中 \(Q\) 为动作平均价值，\(U\) 为鼓励探索的加成项。扩展与评估 (Expand and Evaluate): 当搜索到达未探索的节点时，扩展该节点并用神经网络评估，获得策略 \(P\) 与价值 \(V\)。反向传播 (Backup): 将评估结果 \(V\) 沿访问过的边反向传播，更新这些边的平均值与访问次数 \(N\)。执行 (Play): 当完成数千次模拟 (每步约耗时 0.4 秒) 后，MCTS 返回按访问次数加权的搜索概率。最终着法从这些概率中采样，以增加对弈的多样性。这一过程以神经网络引导的精准评估取代传统的随机模拟 (rollouts) ，既简化了实现，又显著提升了稳定性。

第 3 步: 训练 — 从经验中学习#自我对弈结束后，每个局面都会生成一个三元组 \((s, \pi, z)\)，其中:

s 为棋盘状态；\( \pi \) 为从 MCTS 得到的改进后策略；z 为最终比赛结果 (胜为 +1，负为 −1) 。新一轮网络训练以这些数据为基础，使预测与更优搜索结果对齐。训练目标是最小化以下复合损失函数:

l = (z - v)^2 - \boldsymbol{\pi}^{\mathrm{T}} \log \boldsymbol{p} + c \|\boldsymbol{\theta}\|^2

\]价值损失 \((z - v)^2\): 使网络预测结果与实际胜负一致。策略损失 \(-\pi^T \log p\): 教会网络模仿改进后的 MCTS 策略。正则化项 \(c\|\theta\|^2\): 通过权重衰减防止过拟合。随着每一轮循环，网络实力不断增强，并成为下一次自我对弈的新基准。它实际上是在与逐渐强大的自己进行训练。

结果: 三天内从零到超人#AlphaGo Zero 的学习速度与规模令人惊叹。

仅三天内，它完成 490 万局自我对弈 , 并持续提升。图 3 展示了 AlphaGo Zero (蓝色) 与基于人类数据训练的模型及旧版 AlphaGo 的表现对比。

图 3 | AlphaGo Zero 性能表现。强化学习 (蓝色) 相比监督学习 (粉色) 和 AlphaGo Lee (虚线) 获得更高的 Elo 等级分与更低的预测误差。

关键里程碑:

36 小时后，AlphaGo Zero 实力超过 AlphaGo Lee (击败李世乭的版本) 。72 小时后，在锦标赛时间控制下，AlphaGo Zero 以 100–0 击败同版本 AlphaGo Lee。惊人的是，这一切仅使用 4 个 TPU 的单机完成，而 AlphaGo Lee 需要 48 个 TPU 的分布式系统。超越人类模仿#DeepMind 还训练了一个基于人类棋谱数据的网络作为对照。该网络起初能很好地模仿人类下法，但很快在实战能力上被远远甩开。

结论是: 人类数据并不是通向精通的最佳基础。通过完全依赖自身经验，AlphaGo Zero 摆脱模仿偏差，发现了人类从未提出的、更高效的新策略。

在对不同网络架构的系统对比中，AlphaGo Zero 的设计优势进一步得到验证。

图 4 | 神经网络架构对比。结合策略与价值头的“双头残差”设计，实现了最高的对弈实力与最精准的评估。

知识的重新发现与重塑#AlphaGo Zero 不仅学会了下棋——它还重新发现了人类围棋策略的精髓 , 并超越了人类知识的界限。

图 5 | AlphaGo Zero 学到的围棋知识。 (a) 训练中重新发现的经典定式。 (b) AlphaGo Zero 创造的区别于人类下法的变招。 (c) 自我对弈棋局样本，展示了从新手到大师的实力演化。

在训练初期，它的棋局如同新手——聚焦于局部吃子。到第 19 小时，它已展现出对地盘、势力和平衡的理解。到第 70 小时，它的棋局体现出深刻的战术与战略和谐。它自然掌握了围棋的关键概念: 布局 (fuseki)、手筋 (tesuji)、劫争 (ko fights)、棋形 (shape) 与先手 (sente)——这一切皆通过自我对弈自然涌现。

更令人赞叹的是，它创造了职业棋手前所未见的独特定式 (角部走法序列) 。人类专家开始研究这些定式，从 AlphaGo Zero 学习。机器由此成为老师。

最终运行: 四十天登顶#DeepMind 将实验进一步延伸: 更大的 AlphaGo Zero 版本训练了 40 天 , 采用 40 层残差网络。它完成 2900 万局自我对弈 , 达到前所未有的水平。

图 6 | 最终性能。 AlphaGo Zero (蓝色) 取得史上最高 Elo 分数，超越所有先前版本的 AlphaGo 及其他顶级程序。

AlphaGo Zero (40 天运行版) : 5185 EloAlphaGo Master: 4858 EloAlphaGo Lee: 3739 EloAlphaGo Fan: 3144 Elo即使剥离搜索功能，仅凭原始神经网络 (不使用 MCTS) ，其得分仍超过 3000 Elo——这一职业级表现完全源自直觉。

在 100 局的对战中, AlphaGo Zero 以 89–11 击败 AlphaGo Master , 令人信服地证明了无须人类引导的自学习不仅可行，而且更优。

结论: 自主智能的黎明#AlphaGo Zero 不仅是棋盘上的胜利，更是新型人工智能的原型。它展示了系统可以从零知识出发，仅依靠规则与试错学习的能力，达到超人水平。

这种方法具备根本的通用性: 不依赖人工特征或专家样例。只要有已知规则与模拟机制，这一方法便可加速无数领域的发现——从科学研究与机器人技术，到工业控制与战略决策。

摆脱人类束缚后，AlphaGo Zero 揭示了关于智能的深刻真理: 最先进的策略有时并非源自模仿，而是源自自我发现。

这台从零开始的机器，重新发现并丰富了人类数百年的围棋智慧。在短短数日间，它重塑了这一古老的游戏。通过此过程，AlphaGo Zero 让我们窥见了 AI 的未来——一个学习始于“白板”的时代，人类知识的边界不再是限制，而是机器超越的起点。

AlphaGo Zero：AI 如何从零开始掌握围棋

相关推荐

请问暴风TV 超体电视 2代43X VR电视怎么样？

MuMu模拟器和雷电模拟器哪个好 | MuMu模拟器和雷电模拟器有什么区别

现在哪个传奇私服人多——传奇玩家心中的热门话题

为什么我很容易就勃起容易勃起是病吗

天谕手游泡温泉攻略（探索天谕世界中泡温泉的奥秘）

十大车模品牌排行榜

友情链接