预测算法基本思想(解读冷扑大师背后的AI算法和博弈论)
问耕 发自 LZYY
量子位 报道 | 公众号 QbitAI
昨天下午,量子位在中关村举办了一个技术沙龙,邀请创新工场AI工程院技术VP李天放、联想智慧医疗CEO林林等,从技术和实战的角度,对德州扑克人机大战进行解读。
嘉宾介绍
李天放
创新工场AI工程院技术负责人,课程格子的创始人,前微软工程师,以及著名大数据公司Palantir早期成员。德州扑克职业玩家。
以下是李天放对德州扑克AI的技术解读:
文字版本整理如下:
AI算法和博弈论,这两个交叉点还是有一点难度的。
先从博弈论开始。
大家需要对GTO/纳什平衡有一个初期的理解。在德州扑克,翻硬币,剪刀石头布这类游戏里面,纳什平衡点的定义是:如果双方都在用一个比较好的战略,任何一方做出调整结果都会更糟糕,也就是存在一个平衡点,使得两个人都不能再进步。
相比于石头剪刀布,一对一的德州扑克,是一个复杂度非常高的博弈。如何找到德州扑克的GTO和纳什平衡点?这是此类AI算法的核心。
CounterFactual Regret Minimization(CFR,反事实遗憾最小化),这是一个类似强化学习的算法,但是更高效。让AI之间对战德扑,采用随机的策略,然后每局过后看看在什么地方后悔了,然后尝试不同的战略,再在决策点上复盘。
这个算法与人类学习德州类似:累积经验、评判自己的选择,但需要注意的是,这里正确的“后悔点”非常重要。德州扑克有很强的随机性,所以很容易陷入错误的学习方式。
算法很简单,问题是无限德州的空间太大了,复杂度是10的160次方。有几种解决方案:合并简化 CFR(Claudico),CFR “直觉”(DeepStack),CFR End Game Solver RL(Libratus)。
总结一下:
· CFR类似于强化学习。权重调整基于概率。
· AI的战略和学习方式和职业牌手相似,但是更准确。
上述内容视频版本,请前往量子位微信公众号(ID:QbitAI)查看。
量子位招聘
我们正在招募编译、编辑、记者、市场、运营等多个岗位,工作地点在北京中关村,期待你的到来,一起体验人工智能的风起云涌。
相关细节,请在公众号对话界面,回复:“招聘”两个字。
今天AI界还有哪些事值得关注?
在量子位(QbitAI)公众号会话界面回复“今天”,看我们全网搜罗的AI行业和研究动态。笔芯❤~
另外,欢迎加量子位小助手的qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com