纳什均衡
2. 混合策略
纯粹策略就是玩家始终会在类似牌况中做出同样的决定。比如,小盲位总是会用A♣️7♥️全压,并且一定会弃掉A♣️6♥️。
混合策略就是所有选项在一个牌况中都有被选择的可能,尽管概率可能是0(绝不)或1(一直)。比如,小盲位用A♣️8♥️全压的概率可能是1,用A♣️7♥️全压的概率是0.5,A♣️6♥️全压的概率为0。
在两名玩家对抗的牌局中,其中一名玩家的目标是尽可能的多赢钱,那么这就可能使另一名玩家输很多钱。通过了解另一名玩家的策略,玩家可以调整自己的策略从而最大化进行剥削,如我们早期考虑哪些手牌能够用于跟注翻前全压一样。然而,此时这位玩家已经改变了自己剥削对手策略的策略,他的对手也会做同样的事并且剥削他的策略。这似乎创造了一个剥削策略的闭环:每次玩家改变自己剥削对付的策略,对付也会做同样的事。
幸运的是,数学家John Forbes Nash解决了这个问题,如何对付两个无法被剥削的策略。一个牌况中,两名玩家均使用无法被剥削的策略被称为“纳什均衡”。一个无法被剥削的策略指当一名玩家使用这个策略时,另一名玩家无法从中获得更多的利益。也就是说对抗一个均衡策略不存在应对策略。将这个运用到牌桌上,你的目的是游戏一个无法被剥削的策略直到你注意到对手犯错误,然后对这个错误进行剥削。
我们设计了一个例子用于提升大家对最佳策略的理解。下面这个版本有稍许改动:
警方盘问两名嫌疑人。他们可以决定回答或保持沉默。如果他们都保持沉默,他们每个人不得不支付250美元的罚金。如果他俩都选择回答,他俩也不得不支付250美元的罚金。但如果其中一人选择回答,另一人保持沉默,回答的那位不用支付一分钱,但保持沉默的那位必须支付500美元的罚金。他俩不能对选择进行交流。
将他们的结果做成表格如下:
此时将你自己想象成其中一名嫌疑犯。由于你的搭档并不诚实,你会保持沉默还是冒被罚$500的风险?或者你会祈求在自己回答时搭档保持沉默?
这是一个让人易于理解纳什均衡的典型博弈论问题。背后的逻辑就是均衡策略无法被剥削,意思就是对手改变他的均衡策略对你是有好处的。很显然双方的策略应该被讨论:如果嫌疑犯A一直回答,那么嫌疑犯B就该保持沉默,嫌疑犯B输钱;因此双方的交谈是一个无法被剥削的策略。
均衡策略的另一个例子就是小游戏“剪刀石头布”。两名游戏者会在同一时间公布自己的选择。剪刀击败布,布击败石头,石头击败剪刀。如果两名玩家的选择一样,那么就是平手。
设想玩家A的策略是一直选择布。玩家B显然能够通过一直出剪刀对其进行剥削。要了解一点,玩家A会一直选择出布。我们明白这并非是一个纯粹的均衡策略。
然而存在一个混合均衡策略:如果玩家完全随机选择,那么每一个选项被选择的概率就是三分之一,对手的期望值始终不变,不管他选择什么策略:他俩的输赢平局概率都是三分之一。因此,如果两名玩家都随机选择,他俩都不会从调整策略中获得优势,这就是均衡策略。
牌局中的均衡
玩家A不同策略的全部EV用公式表达为:
EV玩家A=(1-r)(-$5)+(r){(1-c)($10)+(c)[(2)(筹码量)(权益范围rVSc)-筹码量]}
权益rVSc指玩家A加注手牌会击败玩家B跟注手牌的概率。
注意,由于这是零和牌局,因此EV玩家B=-EV玩家A
我们会假设筹码量为$200,经过估算我们知道玩家A的恰当全压范围应该在5-50%,玩家B的恰当跟注范围在5-30%。此时我们就可以通过计算机和上面公式来进行计算。对于公式中使用的权益,我们利用计算机来计算r范围对抗c范围的权益。结果如下表:
玩家A想要最大化他的EV,所以他想要选择r最小化EV的策略。玩家B也想最大化自己的EV,那么他自然也会选择最小化玩家A期望值的策略,那么他会选择c最小化EV的策略。
很明显,不管玩家B的策略是什么,只要他游戏的手牌不高于40%,玩家A的EV始终都会在高位。我们假设游戏40%的手牌,因为不管大盲位玩家采取什么打法,40%的手牌始终都会表现得很好,玩家A绝不会游戏5%、10%、20%或30%的策略,所以我们可以从图表中移除这些:
玩家B此时20%的跟注率始终都好于5%或10%的时候,我们继续移除我们得到了下图:
可以看出玩家A那40%的加注策略优于50%的时候:
玩家B游戏20%于他来说是最好的,所以我们发现纳什均衡给出的r=40%,c=20%,也就是下面的范围:
l 小盲位全压范围:44+、A2s+、K2s+、Q4s+、J7s+、T7s+、97s+、87s、A3o+、K7o+、Q8o+、J8o+、T9o。
l 大盲位跟注范围:66+、A4s+、K8s+、Q9s+、J9s+、T9s、A9o+、KTo+、QTo+、JTo。
当然,这只是一种估算:正确的范围可能会在40%和20%,但这只是一个估算范围。
所以使用一个计算机程序,我们发现正确的范围实际上是r=40.6%,c=21.7%。但是,这些数据包含的手牌范围和标准的范围有点不同,这些范围为:
l 小盲位全压范围:22+、A2s+、K4s+、Q6s+、J7s+、T6s+、96s+、85s、75s+、64s+、54s+、A2o+、K9o+、Q9o+、J9o+、T9o、98o。
l 大盲位跟注范围:33+、A2s+、K9s+、QTs+、A5o+、KTo+。
这些不同看似差别有点大,但从期望值的角度来说我们估算的手牌范围与其差距不大。
利用手牌找到均衡策略需要很多工作,在涉及多名玩家时会变得几乎不太可能。幸运的是有电脑的存在。为了方便,我们已经计算出了好几个有用的均衡图表,可供大家在翻前存在短码玩家的牌况中使用。大家可在本书最后附录部分找到这些图表。
评论 ( 0 )