登陆注册
57676100000571

第571章 AI 完胜人类扑克冠军

为什么科学家总是喜欢让 AI 在各种棋牌类游戏里进行突破?

这是因为棋牌游戏自古以为都被认为是人类智力活动的象征,模仿人类的 AI 自然要以此为目标。

不过根据棋牌规则,不同棋牌类型的游戏的博弈难易各不相同。

根据信息的公开程度,我们可以将棋牌博弈分为“完全信息类”和“不完全信息类”。

“完全信息类”博弈包括国际象棋、围棋等,它们的盘面信息都是公开的,对弈双方接收到的信息完全。

在此类博弈中,AI 每次只需要根据当前盘面,搜索计算各种情况下自己的胜率。

为了提高搜索效率,一般需要对搜索过程中产生的“博弈树”进行广度和深度剪枝。

就是我们平常下棋时常说的算多远和算多准。

“非完全信息类”博弈包括德州扑克、桥牌、麻将等游戏。

以德州扑克为例:每个玩家有 2 张牌作为“底牌”,同时还有 5 张公共牌。

玩家选择 5 张公共牌里的 3 张,与手里的 2 张底牌组合,最后以期得到最好的 5 张牌的组合。按照“Card Ranking”决定最后的胜者。

由于游戏中每个人无法看到对手手里的牌,这要求参与者具备更复杂的推理能力,不仅要看对手打了什么牌,还要猜测对手手里有什么牌,并根据对手行动暗示出的信息,来计算自己的最优出牌法。

这给 AI 带来了更严峻的挑战。

AI 不仅要学会根据不完全信息进行复杂决策,还要应付对手的虚张声势、故意示弱等招数。

游戏的人数的也将改变 AI 的应对难度。

实验中使用的扑克游戏界面。

在所有双人游戏里,“表现过人”的 AI 都是通过近似纳什均衡实现的。

在纳什均衡里,只要另一位玩家的策略保持不变,任何人都不能从改变策略中获益。

虽然 AI 的策略只能保证比赛结果不比平局更差,但如果 AI 的对手犯了错误而无法维持均衡时,AI 将取得胜利。

在两人以上的比赛中,采取纳什均衡将是一种失败的策略。

因此 Pluribus 摒弃了理论上成功的保证,采取了一种新的能一直击败对手的策略。

“进行六人游戏,而不是一对一,这需要 AI 对游戏策略进行根本改变,” Pluribus 开发者 Brown 表示,“我们为 Pluribus 的表现感到高兴,并相信它的一些比赛策略甚至可能改变职业选手的比赛方式。”

Pluribus 的算法在其策略中创造了一些令人惊讶的特征。

例如,大多数人类选手会避免“反主动下注(donk betting)”——它通常被视为一种没有战略意义的弱势举动。

但 Pluribus 比被它击败的职业选手更频繁地使用这一策略。

“Pluribus 的主要优势在于它能运用混合策略,”职业选手 Elias 表示,“这与人类试图做的事情是一样的。对于人类,这是执行问题——以完全随机的方式做到这一点并且持续这样做。大多数人都做不到。”

曾在扑克职业生涯里获得了近 200 万美元的收入的 Gagliano 在与 Pluribus 比赛后说:“有些策略是人类根本就不会去做的,尤其包括它的投注规模。”

Pluribus 在具有统计意义的情况下取得了稳固的胜利令 Gagliano 尤其印象深刻:“机器人不只是和一些职业选手对垒。它已经成为世界上最好的选手之一。”

有限前瞻搜索算法

进一步剖析 Pluribus 会了解到,它的各种策略是基于一种新的有限前瞻算法,这正是它能够打败多个人类扑克玩家的原因。

这是完全信息博弈的标准方法,但在非完全信息博弈中却极具挑战性。

Pluribus 首先通过和 6 个它自己的副本玩的场景来计算一个“蓝图”策略,这让它能在第一轮下注。

之后,Pluribus 将在更细粒度的博弈抽象中更详细地搜索可能的变动。

这时,它会展望未来的几步,由于计算量的限制,它并不会推演到博弈的最后。

具体来说,在子博弈的叶子上,AI 考虑了每个对手和自己可能会在剩下的比赛中采用的五个可能的延续策略。

可能的延续策略的数量很多,但研究人员发现他们的算法只需要考虑每个叶子的每个选手的五个延续策略来计算强大、平衡的整体策略。

Pluribus 也试图变得不可预测。

例如,如果人工智能拥有最好的一手牌,那么投注就有意义,但是如果人工智能只有在拥有最好的一手牌时才投注,那么对手就会很快赶上来。

因此,Pluribus 计算出各种可能,并在所有可能性中保持平衡的策略。

尽管德州扑克是一种极其复杂的游戏,但 Pluribus 有效地利用了计算。

最近在游戏中取得里程碑式进展的 AI 使用了大量服务器和 GPU;

双人扑克 AI Libratus 需要大约 1500 万个小时来开发策略,在实时游戏中使用了 1400 个 CPU 核心小时。

而 Pluribus 仅使用了 12,400 个核心小时就计算出了蓝图策略,并且在现场游戏中仅使用了 28 个核心小时。

面对 AI 技术的不断突破,很多人会顾虑 AI 发展对人类的威胁,然而把握技术应用大门的钥匙仍掌握在人类自己手中,正如爱因斯坦所说:“科学,究竟是给人带来幸福还是带来灾难,全取决于人自己。”

同类推荐
  • 王者荣耀之人物系统

    王者荣耀之人物系统

    在陈晓枫成功进入王者1的时候,一个系统礼包让陈晓枫从新开始王者荣耀的世界中使用其他动漫中的人物。
  • 心境生荼

    心境生荼

    本故事纯属虚构,结合现实生活,并无事实案例。希望所有读者喜欢。
  • 夏一天

    夏一天

    你有过两小无猜的爱情么?从无话不谈到无话可说……你遗憾么
  • 鲜红山茶花

    鲜红山茶花

    一朵被鲜血染红的山茶花,这血亦暖亦凉,这花似开非开。
  • 樱花飘落倔强心

    樱花飘落倔强心

    她是脾气暴躁易怒的女生,更是万年第一的女学霸,还是不服输的倔强少女。她就是狮子座的罗朝曦,学校里集万千宠爱于一身的学生会会长,并与同姓的同学罗柳依交好。天有不测风云,罗柳依的妈妈在罗朝曦的生日聚会上饮酒过量引发心脏病,送去医院却抢救无效,不幸离世。正处于敏感成长期的罗柳依将妈妈死亡的责任算到罗朝曦身上,而罗朝曦也因此背上了“无耻有心机”的耻辱称号,在学校中的地位跌到谷底。友谊破裂、恶意中伤、同学侮辱,原本强大的罗朝曦终于感觉支撑不住来自生活的重压了......即使在如此艰难的生活里,她也铆足勇气,撑开翅膀,在逆风中飞行,等待着真相大白的那一天的到来。罗柳依出生的秘密曝光,罗朝曦在惊讶的同时又感到愤怒,层层重担,来自所有人的压力,彻底击溃了她。樱花盛开的那个季节,狮子座女生经历了一场痛苦的蜕变。
热门推荐
  • 李小龙传奇异界行

    李小龙传奇异界行

    武术家李小龙先生在奇异世界复生了,看一代伟大灵魂,如何在异世再创辉煌,重塑巅峰!群号:59176584
  • 楚人行

    楚人行

    漫漫修仙路,终登峰顶,问谁说,人不可修仙,仙非得断情?有的是一步一步的坚韧。仙亦同凡!
  • 咸鱼翻盘

    咸鱼翻盘

    机缘巧合,改天换命,武道天下,极品为先。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 网游之修真法师

    网游之修真法师

    奇迹是被创造的,那么神话呢?网游中可寻找奇迹,但是网游中的神话却是需要创造。意外往往是成就神话的起始点……儿时的意外让他获得混沌能量体……意外让他获得超级功法却无法修炼……太多的意外,却也正是这些意外成就了他……网游无情,兄弟有情!神话的背后,却是有着一群铁血豪情的兄弟!网游神话的创造者,意外离开网游,再回网游是否再续神话?
  • 圣婿

    圣婿

    “是少爷么?您可算是接电话了,我是你赵伯啊,老爷已经决定立你为家族的继承人了,您就别赌气了,赶紧回来吧,家族的公司,您得早点熟悉熟悉啊!”“是栋儿么?妈知道以前对不起你,可那也不是妈的本意啊,你就回来吧!”“是啊,咱们家族,还得靠着你呢!”不就是几千个亿的破家族公司么?老子还稀罕你那几个臭钱么?“滚!”......
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 桃花满天下

    桃花满天下

    戴家有女难出嫁,被夫三次休复休。第一回嫁给了天下第一富人,第二回嫁给了天下第一商人,第三回嫁给了天下第一才人,而这一次……嫁给了天下第一穷人!
  • 快穿之我的小祖宗

    快穿之我的小祖宗

    肖诺,身上标签无数——肖家掌权人,学神,长得好看……唯一一个缺点,单身且直女,注孤生,当被“直女改造系统”绑定后……
  • 不科学的召唤师

    不科学的召唤师

    泽坦大陆,广袤无垠;种族争斗,帝国逐鹿;魔法与斗气交相辉映;光明与黑暗激战不休;在这个群雄并起的时代,苏安·佩德罗,一个勋爵之子,要如何以召唤师的身份,书写属于自己的传说?