我们近期推出了一个更新,我们认为你绝对会喜欢: 玩家形象设定 ,一种学习剥削策略的全新方法。形象设定功能让你模拟那些有持续漏洞和可剥削倾向的对手。你可以将设定的形象应用到 GTO Wizard AI 中任何场景。想要最大化剥削跟注站、疯鱼玩家,或者应对突然激进的 nit?现在只需给你的对手附加一个形象,然后学习最佳应对策略。玩家形象由行动激励分定义。这些激励分告诉solver”这个玩家喜欢下注”或”偏好过牌”,并将这种偏好传播到整个决策树中。
在这篇文章中,我们将介绍玩家形象的工作原理,你可以期待的未来功能,以及如何利用玩家形象设定来学习成为剥削大师。
在玩家形象功能出现之前,研究剥削策略的标准方法是节点锁定 ,即在单个决策点局部定义玩家的策略。但真正的剥削是全局性的:你剥削的是玩家,而不是某个决策点。玩家形象编码了游戏树中持续存在的可剥削倾向。你不再研究如何剥削某个特定错误 ,而是学习如何剥削某种类型的玩家。比如,当模拟一个 nit 玩家时,你不是在说”他们在这个特定的转牌节点过度弃牌”,而是在说”这个玩家在所有地方都过度弃牌”,然后让solver自动找到最佳剥削策略。
初始玩家形象旨在代表你在实战中会遇到的常见玩家类型。这些代表典型倾向 ,对剥削策略的研究很有价值。
GTO 是默认形象。GTO 玩家会剥削任何与之对抗的非 GTO 形象。如果所有玩家都是 GTO,他们会产生均衡策略(QRE)。
玩家形象的工作原理是为某些玩家的行动添加虚拟激励 。在每个决策点,solver将这些激励视为采取特定行动的小额奖励或惩罚。
举个例子,假设你想模拟一个粘池玩家。给跟注添加+5%底池激励,这个形象就会表现得“好像”每次跟注都能获得额外 5%底池奖励一样。跟注变得更有吸引力,所以形象会更频繁地跟注。 形象表现得“好像”采取特定行动会有奖励或惩罚,但这些激励在真实 EV 计算中并不存在。这个核心理念并不是全新的。我们必须向 Alex Sutherland 致敬,他早在 2014 年就写过关于” 不可剥削的剥削 “的文章,在简化游戏中提出了这个确切的概念。他领先于他的时代,我们很自豪能在完整的复杂博弈树中将这个理念付诸实践。同样的机制为我们的频率锁定算法提供了技术支持。假设你想让某个玩家在某个节点加注 35%的范围,同时将 EV 损失降到最低。我们给加注附加一个虚拟激励,并在解算过程中自动调整,直到达到期望的频率。结果就是在该约束条件下可剥削性最小的策略。
这是玩家形象功能的第一个版本,我们才刚刚开始。我们正在为令人兴奋的solver技术新时代奠定基础。以下功能即将推出:自定义玩家形象: 目前你使用的是我们预设的玩家形象。下一步我们会为你提供工具,让你可以从头开始构建并保存自己的玩家形象。这是我们的第一优先级。
更精细的控制: 目前,一个形象配置会应用到整手牌(在决策树层面)。我们正在努力为你提供更精细的控制,让你可以在街层面,甚至可能在节点层面应用激励机制。
关于solver如何剥削这些形象配置,有一个简短但重要的说明。这不是纯粹意义上的”最大剥削”。solver会在当前街惩罚特定玩家形象的错误,但它假设对手在后续街会完美游戏。这是 GTO Wizard AI 解算的运作方式,虽然这在目前是一个技术限制,但实际上可能是件好事:完全的最大剥削可能导致一些疯狂且脆弱的策略。当前方法为你提供了一个更稳健实用的剥削策略,既能剥削对手的倾向,又不会完全放飞自我。
展望未来,我们正在探索一些令人兴奋的可能性,比如添加简单的控制按钮来调节诈唬频率,甚至通过手牌历史数据来建模人类玩法。这只是开始,我们正迫不及待继续深入搭建这套体系。
让我们深入一个例子,看看我们的新功能能做什么。我将分析一个 BTN 对 BB 的单次加注底池,100bb 深度,NL500 抽水结构。你在 BTN 位对阵 BB 位的一个已知鱼玩家。
打开决策树构建器,点击这里选择玩家类型(profile):
首先,我打开决策树构建器,给大盲位分配 “Fish”形象类型。这个类型玩家跟注有 +4% 底池激励,过牌有 -6% 底池激励,这创造了一个粘人的玩家,并且喜欢 donk 下注 。听起来熟悉吗?
接下来,我来选择翻牌圈:Q♠T♠7♥。这个翻牌圈是完全免费的,所以你可以打开 GTO Wizard AI 跟着一起学习。玩家形象通过彩色的图标来表示。你可以将鼠标悬停在这些图标上来查看该玩家形象的倾向。
我们并不是声称这个简单的”鱼玩家形象”能够完美代表每一个鱼玩家。人类心理学要比几个决策树层面的倾向复杂得多。但即使是这样一个简单的模型,对于学习的玩家来说也具有巨大的价值。
我们来看看鱼玩家的打法。在这个牌面上,它大约有三分之一的时候会 donk 下注,这与 GTO 解算结果相差甚远,因为 GTO 在这里总是过牌。这个 donk 下注的范围又宽又弱。那么我们该如何惩罚这种打法呢,反制策略简单直接且威力十足:
- 惩罚他们的 Donk 下注,坚守阵地并疯狂加注
坚守阵地: 当鱼玩家 donk 时,我们极少弃牌,只有大约 12% 的范围会弃牌。这是我们有优势的牌面,我们不能不战而降。他们不能用一个充满垃圾牌的封顶范围来领打并获得尊重。
疯狂加注: 如你所见,BTN 位几乎有 1/3 的频率加注!逻辑很简单,大盲位的 donk 范围很弱,而且他们的玩家形象设定为更倾向于跟注,因此不会用大量 3-bet 来反击我们。所以我们用一个宽的偏线性范围的来加注攻击他们。脆弱的成牌,听牌,甚至是带黑桃的单高张这样的牌都足以加注。
- 非常激进地攻击他们的过牌
这是另一个关键的调整。好的玩家会保护他们的过牌范围。鱼玩家通过用许多强牌 donk 出来而削弱了自己的过牌范围。同时因为他们也更倾向于只是跟注,所以它没有足够频繁地过牌加注来惩罚你的薄价值下注。
鱼玩家会试图通过在翻牌圈过度跟注来防守我们的进攻。但这正是我们想要的。他们的范围现在充满了负ev的牌,这些牌在后续街上根本无法承受攻击。在下一个截图中,我突出显示了鱼玩家范围内所有负 EV 的跟注。看到所有的红色了吗,那就是你额外赢得的收益。这些牌代表了对手负ev的防守,你可以在后续街从它们身上获得盈利(打盖或获取价值)。
学习一个翻牌的策略固然很好,但实际上这种学习需要练习和重复。扎实的技术需要你一直到河牌都能打磨好自己的策略。幸运的是,设置训练很简单。只需点击左上角的训练图标,让它随机生成牌面,你就准备好开始碾压对手了。
从刚才那个例子你可以看出,玩家形象功能旨在弥合纯理论和现实之间的差距。这是你第一次可以针对特定玩家类型设置模拟,并看到理论上合理的剥削策略呈现出来。但这不仅仅是学会在面对 donk 下注时更多加注那么简单。通过观察solver实时调整,你开始对 GTO 的底层逻辑建立更强的直觉。你看到了基础原理的实际应用,这让你在牌桌上的决策变得更快更准确。这就是我们长久以来希望扑克学习所走向的方向。我们要创造的工具不仅仅是给你答案 ,更要帮助你更深入地理解问题 。我们非常期待看到你用它发现的策略。
评论 ( 0 )