HASH GAME - Online Skill Game ET 300新的一年DeepMind准备让AI学会“放烟花”！

　　HASH GAME - Online Skill Game GET 300顶级 Hanabi 沟通战略是「finesse」：finesse 是一个队友的举动，乍一看似乎很糟糕（对我们而言），但如果我们假设队友知道我们不知道的事情，实际上是很棒的。假设我们的同伴玩得很好，我们可以排除这个「第一眼」的解释，并总结一下自己的牌。基于技巧的典型推理可能是：「我的队友知道红色 2非常有价值。然而她故意放弃了她的「红色 2」。唯一合乎逻辑的解释是，我现在正拿着另一个红色 2。「（如果你玩纸牌游戏 Hearts，你会熟悉黑桃皇后的类似游戏）。由于「finesse」，玩家最终会对游戏形成复杂的解释。从应急沟通（emergent communication）的角度来看，「finesse」很有吸引力，因为玩这个游戏和理解它们都需要超越提示的字面含义并推断出队友的意图——有时候称为「theory of mind」。

　　那对于 Hanabi，现有的强化学习方法如何呢？事实上，并不如想象的那么好。DeepMind 的第一个实验通过向修改后的重要性加权 Actor - Learner 通过提供有效的、无限量训练来推动这一趋势。他们确定了 200 亿次「有效无限」的动作：这个数字相当于大约 3 亿次游戏或 1.66 亿小时的人类游戏（如果假设一个休闲玩家每次移动大约需要 30 秒）。该算法使用自身的副本进行训练，称之为「self-play setting」。虽然该算法在双人游戏环境中可以学习成功的惯例（平均 22.73 分，可能总共 25 分），但它在四人和五人游戏环境中的表现要比专业玩家或手动编码的机器人差得多：

　　研究人员在第二次实验中证实了这些发现，这次实验中使用了 1 亿次移动这样更合理的预算，以及我们发布的修改后的 Rainbow 架构（你可以试试：大约 16 小时内在一个 GPU 上训练能够获得 15 分的智能体）。Rainbow 在 2 人游戏中表现也不错，但是在 4 人和 5 人游戏中表现相当差。虽然确实有些技术（如 BAD 方法）能够提高这些分数，但是实现它所需的样本数量表明，在 Hanabi 中发现惯例仍然是一个未解决的问题。

　　然而，打破自我游戏设置只是一个开始。在其他环境中成功的交流需要高效的编码（不要浪费文字）和适应性（理解听众）。当我们遇到新的人时，我们可能不会对语言的所有术语都达成一致，因此我们倾向于让事情变得更简单一点。例如，DeepMind 将 operator 规范和 Lyapunov 函数排除在（大多数）社交会面之外。适应能力的需求是 Hanabi 的核心：当和一个新的团队一起玩时，这样做你承担的风险才更小——或许是没有进行联系就落子，或许是等待队友先走第一步。虽然人类很容易适应陌生的听众，但 DeepMind 目前最好的智能体却做不到：它们遵循复杂且相当僵化的惯例。

　　当一个智能体被要求与不熟悉的智能体合作时，这种情况被称为「特定团队游戏（ad hoc team play）」。当自我游戏（self-play）环境要求我们学习最好的惯例时，特定团队游戏需要适应先验未知的惯例。在本文中，DeepMind 团队发现用自我游戏策略训练的智能体在特定环境中惨败。在一个实验中，DeepMind 挑选了 10 个完全训练的 actor-learner 智能体，actor-learner 智能体得分超过 23 分。相比之下，新团队几乎立即出局，平均得分为 2~3 分。DeepMind 发现使用类似相关矩阵的东西来可视化这种效果是有用的，对角线对应于自我游戏评估：

　　摘要：在计算机的发展历史上，游戏一直是研究机器如何做出复杂决策的重要试验平台。近年来，机器学习取得了显著的进步，人工智能体在很多领域取得了超越人类专家的表现，其中包括围棋、Atari 游戏以及一些扑克游戏。与它们的国际象棋、跳棋、双陆棋前身一样，这些游戏通过复杂的定义和挑战推动了人工智能的研究。在本论文中，我们希望将「Hanabi」游戏作为新的挑战，这一领域具有新颖的问题，这些问题源于纯粹合作的游戏玩法，和 2-5 个玩家环境中不完全信息的结合。

HASH GAME - Online Skill Game ET 300新的一年DeepMind准备让AI学会“放烟花”！

联系我们

底部导航

扫描二维码