自由 开放 发现 分享 专业 助力
注册
Ctrl + D 收藏本站
当前位置:首页 » 资源

《解析无限德州扑克》第二部分:未加注底池中的翻前打法(3)

纳什均衡
在信息不全的零和多人牌局中,一个人是能够谈论他的策略的。所有人都可以根据他们的常规策略描述他们会在每个牌况中的行动。在小盲位对抗大盲位的牌况中,小盲位的策略是他会在自己范围中(全压或弃牌)游戏每一手牌。对于大盲位玩家,他的策略是对于自己每一手底牌,不管如何都要跟注小盲位的全压。这里有两种类型的策略:1. 纯粹策略

2. 混合策略

纯粹策略就是玩家始终会在类似牌况中做出同样的决定。比如,小盲位总是会用A♣️7♥️全压,并且一定会弃掉A♣️6♥️。

混合策略就是所有选项在一个牌况中都有被选择的可能,尽管概率可能是0(绝不)或1(一直)。比如,小盲位用A♣️8♥️全压的概率可能是1,用A♣️7♥️全压的概率是0.5,A♣️6♥️全压的概率为0。

在两名玩家对抗的牌局中,其中一名玩家的目标是尽可能的多赢钱,那么这就可能使另一名玩家输很多钱。通过了解另一名玩家的策略,玩家可以调整自己的策略从而最大化进行剥削,如我们早期考虑哪些手牌能够用于跟注翻前全压一样。然而,此时这位玩家已经改变了自己剥削对手策略的策略,他的对手也会做同样的事并且剥削他的策略。这似乎创造了一个剥削策略的闭环:每次玩家改变自己剥削对付的策略,对付也会做同样的事。

幸运的是,数学家John Forbes Nash解决了这个问题,如何对付两个无法被剥削的策略。一个牌况中,两名玩家均使用无法被剥削的策略被称为“纳什均衡”。一个无法被剥削的策略指当一名玩家使用这个策略时,另一名玩家无法从中获得更多的利益。也就是说对抗一个均衡策略不存在应对策略。将这个运用到牌桌上,你的目的是游戏一个无法被剥削的策略直到你注意到对手犯错误,然后对这个错误进行剥削。

我们设计了一个例子用于提升大家对最佳策略的理解。下面这个版本有稍许改动:

警方盘问两名嫌疑人。他们可以决定回答或保持沉默。如果他们都保持沉默,他们每个人不得不支付250美元的罚金。如果他俩都选择回答,他俩也不得不支付250美元的罚金。但如果其中一人选择回答,另一人保持沉默,回答的那位不用支付一分钱,但保持沉默的那位必须支付500美元的罚金。他俩不能对选择进行交流。

将他们的结果做成表格如下:

此时将你自己想象成其中一名嫌疑犯。由于你的搭档并不诚实,你会保持沉默还是冒被罚$500的风险?或者你会祈求在自己回答时搭档保持沉默?

这是一个让人易于理解纳什均衡的典型博弈论问题。背后的逻辑就是均衡策略无法被剥削,意思就是对手改变他的均衡策略对你是有好处的。很显然双方的策略应该被讨论:如果嫌疑犯A一直回答,那么嫌疑犯B就该保持沉默,嫌疑犯B输钱;因此双方的交谈是一个无法被剥削的策略。

均衡策略的另一个例子就是小游戏“剪刀石头布”。两名游戏者会在同一时间公布自己的选择。剪刀击败布,布击败石头,石头击败剪刀。如果两名玩家的选择一样,那么就是平手。

设想玩家A的策略是一直选择布。玩家B显然能够通过一直出剪刀对其进行剥削。要了解一点,玩家A会一直选择出布。我们明白这并非是一个纯粹的均衡策略。

然而存在一个混合均衡策略:如果玩家完全随机选择,那么每一个选项被选择的概率就是三分之一,对手的期望值始终不变,不管他选择什么策略:他俩的输赢平局概率都是三分之一。因此,如果两名玩家都随机选择,他俩都不会从调整策略中获得优势,这就是均衡策略。

牌局中的均衡
现在让我们来看一看这些均衡策略在我们描述牌况中的运用,小盲位会加注或弃牌,大盲位可以跟注或弃牌。注意两名玩家都有自己的最佳策略,我们的目标是找到一些能够制衡他们最佳策略的策略。我们设定小盲位为玩家A,大盲位为玩家B。玩家A会用于全压的手牌比例设定为r,玩家B会用于全压的手牌比例设定为c。我们的目的是找出r和c之间的均衡价值。

玩家A不同策略的全部EV用公式表达为:

EV玩家A=(1-r)(-$5)+(r){(1-c)($10)+(c)[(2)(筹码量)(权益范围rVSc)-筹码量]}

权益rVSc指玩家A加注手牌会击败玩家B跟注手牌的概率。

注意,由于这是零和牌局,因此EV玩家B=-EV玩家A

我们会假设筹码量为$200,经过估算我们知道玩家A的恰当全压范围应该在5-50%,玩家B的恰当跟注范围在5-30%。此时我们就可以通过计算机和上面公式来进行计算。对于公式中使用的权益,我们利用计算机来计算r范围对抗c范围的权益。结果如下表:

玩家A想要最大化他的EV,所以他想要选择r最小化EV的策略。玩家B也想最大化自己的EV,那么他自然也会选择最小化玩家A期望值的策略,那么他会选择c最小化EV的策略。

很明显,不管玩家B的策略是什么,只要他游戏的手牌不高于40%,玩家A的EV始终都会在高位。我们假设游戏40%的手牌,因为不管大盲位玩家采取什么打法,40%的手牌始终都会表现得很好,玩家A绝不会游戏5%、10%、20%或30%的策略,所以我们可以从图表中移除这些:

玩家B此时20%的跟注率始终都好于5%或10%的时候,我们继续移除我们得到了下图:

可以看出玩家A那40%的加注策略优于50%的时候:

玩家B游戏20%于他来说是最好的,所以我们发现纳什均衡给出的r=40%,c=20%,也就是下面的范围:

l 小盲位全压范围:44+、A2s+、K2s+、Q4s+、J7s+、T7s+、97s+、87s、A3o+、K7o+、Q8o+、J8o+、T9o。

l 大盲位跟注范围:66+、A4s+、K8s+、Q9s+、J9s+、T9s、A9o+、KTo+、QTo+、JTo。

当然,这只是一种估算:正确的范围可能会在40%和20%,但这只是一个估算范围。

所以使用一个计算机程序,我们发现正确的范围实际上是r=40.6%,c=21.7%。但是,这些数据包含的手牌范围和标准的范围有点不同,这些范围为:

l 小盲位全压范围:22+、A2s+、K4s+、Q6s+、J7s+、T6s+、96s+、85s、75s+、64s+、54s+、A2o+、K9o+、Q9o+、J9o+、T9o、98o。

l 大盲位跟注范围:33+、A2s+、K9s+、QTs+、A5o+、KTo+。

这些不同看似差别有点大,但从期望值的角度来说我们估算的手牌范围与其差距不大。

利用手牌找到均衡策略需要很多工作,在涉及多名玩家时会变得几乎不太可能。幸运的是有电脑的存在。为了方便,我们已经计算出了好几个有用的均衡图表,可供大家在翻前存在短码玩家的牌况中使用。大家可在本书最后附录部分找到这些图表。

相关推荐

评论 ( 0 )

在德扑荟,我们重视您的安全和隐私.
只使用安全服务器和支付处理器,并制定了严格的隐私政策来保护您的信息和订单详情。

2025 年 10 月
 123456
78910111213
14151617181920
21222324252627
282930  
  签 到
请登录后签到
每日签到得1积分,每连续签到7日将额外得10积分

我的

回顶部