alphagozero对局精解(两张表让您了解AlphaGo)
昨天DeepMind发布了万众瞩目的新论文;不巧一早有事外出,下午回来后赶紧补功课:首先把附加福利83张相关棋谱放到围棋宝典App的云棋谱库里,然后就开始学习各大媒体对它的报道。
1、AlphaGo族谱
版本 | 时间 | 战胜 | 等级分 |
Fan | 2015-10 | 樊麾 | 3100 |
Lee | 2016-03 | 李世石 | 3600 |
Master | 2017-01 | 顶尖s | 5000- |
Ke | 2017-05 | 柯洁 | 5000- |
Zero | 2017-10 | 自我 | 5000 |
(以上等级分为约略,根据论文原图目测)
版本Ke是我加的,虽然其实也是Master,但经过几个月肯定比年初的Master高一些。
趋势:水平越来越高、硬件越来越省(上表自Master开始均只有4个TPU,Lee要48个TPU,Fan是176个GPU)、学习时间越来越短(Zero从零开始到超越Master只用了40天,而Master是花了几个月)。
TPU者,张量处理器也;为深度学习量身定制的芯片,效率更高;预期普及时间:2025年。
Zero并不与AlphaGo从围棋界隐退矛盾:所谓“技术仍继续,就是不比赛”。
AlphaGo的目标远大,比如解决科技难题、医学难题,经济、军事。。。说不定还能解决哲学难题。
2、Zero出关记
Zero英文意思是:零。除了围棋最基本规则(棋盘的几何学定义、轮流落子规则、终局输赢计算、打劫等),它就是一张白纸。放弃参考任何人类棋谱,完全自我学习。
自学小时 | 成就 |
0 | 渣渣 |
3 | 战5渣 贪吃蛇,以提子、填子为乐 |
19 | 学会死活、实利与外势等概念 |
70 | 表现得训练有素,富于变化,已达super-human水准(不知怎么译,但比职业顶尖低) |
3×24 | 超越Lee |
21×24 | 追上Master |
40×24 | 超越Master |
注意:学习时间很短,是由于TPU运行得太猖狂。Nature微博的说法:“几天训练完成了近500万盘棋”。要知道1天只有86400秒。职业棋士一生平均有1000局正式比赛么?
完全是刚见到棋盘的初学者的样子,满天星、撒豆兵。有点像初中物理讲的电子云。
至541手终局,双方都很兢兢业业的填子、提子,对于“对方可能不会提自己的子”,似乎双方都充满期望和热情,毫不衰减。
此阶段对局发布了20局。
Zero追上并超越Lee的棋谱,20局。
Zero之后继续双手互搏的棋谱,20局。
Zero追上并超越Master的棋谱,20局。
还有3谱各阶段有代表性的棋谱。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com