扑克中的频率、概率和混合策略

扑克中的频率、概率和混合策略,第1张

本文主要是针对GTO问答篇中关于频率部分回答的阐述
如果他们都错了?

在非完全信息动态博弈中,混合策略存在性已经没有争议。而当你打开一篇教学文章或一个教学视频,你一定会看到或听到类似下面一句话:


扑克中的频率、概率和混合策略,第2张

“根据Solver结果,我们手拿KK,是一个混合策略。在这个Flop,Solver推荐以60%的频率下注,40%的频率过牌。”

请仔细思考这句话,然后问自己几个问题:

如果AI打这一手KK,它怎么能在单局决策上控制一个频率?

如果AI运行了10、100、1000手相同的场景(Trainer),它的混合会是这样的比例吗?

我也想按AI这样,用KK使用混合策略,我一定要按这个比例吗?

是不是不按这个比例就不算是GTO策略?

我实施了混合策略中的BET,对手会以为我是纯策略吗?

我记不住范围里每手牌的下注或过牌的频率怎么办?

我好不容易记住了每手牌的频率,单局决策中怎么实施出来?

我严格按RNG(随机数生成器)在单局中实施了这个频率,对手能不能观测到?

如果对手没有观测到,我实施这个频率有用吗?

这篇文章就是从概念和定义上回答这些问题,讨论对扑克中的频率、概率和混合策略的理解。

频率和概率

数学频率的定义(Frequency):在相同的条件下,进行了m次独立重复试验,在这m次试验中,事件A发生的次数n称为事件A发生的频数。比值 n/m称为事件A发生的频率,用文字表示定义为:频率是每个事件A出现的次数与独立重复试验总次数的比值。


扑克中的频率、概率和混合策略,第3张

古典概率的定义(Probability):试验中,随着重复次数m的逐渐增大,事件A的频率会呈现出稳定性,逐渐稳定于某个常数,这种“频率稳定性”是通常所说的统计规律性。这个常数被称为概率,反映随机事件出现的可能性大小。(注:频率派的定义)

伯努利大数定律:设p为事件A在每次独立重复试验中发生的概率,对于任意正数ε 0,有:


扑克中的频率、概率和混合策略,第4张

重点强调:频率是一个观测统计指标,必须依赖于多次重复试验才能得出。

频率的应用

我们最常见的频率是VPIP(入池率)和PFR(翻前加注率),比如说你从HUD上观测到一个对手的VPIP是30%,然后就可以推测他的入池范围是30%。

频率=范围?有没有思考过为什么?

在我们收集到对手的足够多的数据以后,我们得知了他的入池频率VPIP,然后通过大数定律,把频率直接转换成概率。我们就可以说他有30%的可能性入池,但这只是概率,也不是范围。

接下来,这里有一个博弈论的重要概念:共同知识。

共同知识是所有理性人的共同信念Belief。即某一事实成为所有参与人的K阶知识,且K趋向无穷大;在共同知识假设下,参与人博弈的各方没有智力高低之分。

翻前的共同知识是,所有理性玩家都会拿绝对牌力相对最高的手牌入池。而对绝对牌力的判断标准是有共识的,从AA、KK开始排列到72o。(其实采用的牌力排名各体系还是有区别)

因此,我们就可以拿频率(事实上是转换后的概率)乘以1326种全范围手牌,来推测对手的入池范围。(注:也可以贝叶斯方法用来推测范围。)

重点强调:用频率推测范围中应用了大数定律,这就要求我们收集到的数据样本量足够大。


扑克中的频率、概率和混合策略,第5张

定义中关键的两点是,概率分布和随机选择。

Solver计算出的混合策略,在形式上是一个概率分布,而不是频率分布。而在概率分布中,我们的任何随机选择都是成立的。单次(单手牌)选择的特定策略不会影响概率总体分布。

到这里,我们就可以回答前两个问题:

Q1:如果AI打这一手KK,它怎么能在单局决策上控制一个频率?

A:AI不会控制频率,它只是通过RNG来生成概率,随机性选择混合策略中一个方向。

Q2:如果AI运行了10、100、1000手相同的场景(Trainer),它的混合会是这样的比例吗?

A:如果我们收集了10、100手AI的数据,研究它的频率,会发现混合的比例未必会符合计算出的概率。如果我们收集了更多的数据,根据大数定律,最后的比例会无限逼近。


扑克中的频率、概率和混合策略,第6张

GTO+ 训练模式中对于混合策略,也是采用RNG生成器来选择概率。

回到开篇那句,就应该改为:“根据Solver结果,我们手拿KK,是一个混合策略。在这个Flop,Solver会以60%的概率下注,40%的概率过牌。

单次决策中的概率

我们已经阐明,混合策略中的选择是一个概率问题。那么,在单次决策中,随机选择的策略方向重要吗?


扑克中的频率、概率和混合策略,第7张

对单局节点的混合策略而言,无论你选择BET还是CHECK,你的EV值是一样的。这就是混合策略的无差别性(小数点后略有不同是dEV的问题)。因此,对于单局节点的混合策略,无论什么比例,随机选择任何一个动作都是合理的。

Q3:我也想按AI这样,用KK使用混合策略,我一定要按这个比例吗?

A:不一定。无论用什么比例混合,都是在策略树上的一个有可能性的选择,都不会损失EV。

Q4:是不是不按这个比例就不算是GTO策略?

A:德州扑克是一个动态博弈,你选择了混合策略中的不同方向,就会进入不同的子策略树。在一个节点上,无论你用什么比例选择,只要是在策略树上就是GTO策略。不同的是,你进入不同的子策略树后,会有不同的纳什均衡点。

这么说,我们在这个场景下,总是选择BET也是可以的吗?

海萨尼纯化定理

约翰·海萨尼Jonh Harsanyi(1920-2000),在1994年与纳什、泽尔腾共同获得了诺贝尔经济学奖。他在博弈论方面的突出贡献是研究不完全信息博弈理论,著名的贝叶斯纳什均衡就是他的研究成果。

在海萨尼之前,学者通常认为不完全信息博弈无法计算。海萨尼在1973年的论文提出了“纯化定理”:混合策略均衡等价于不完全信息下的纯策略均衡。

回到扑克这个不完全信息游戏中,对手看你行动都是推测你手牌的一个范围。在你的所有BET范围内,你每次都拿KK选择BET这个纯策略,对于对手而言,他并不知道你是选择混合策略还是纯策略。

这样,我们可以在策略设计中,用一种纯策略来代替混合策略,比如KK总是选择BET。当然,这是一个总的策略设计,在KK总是选择BET的同时,你也应该有相应的Bluff组合的纯策略。

Q5:我实施了混合策略中的BET,对手会以为我是纯策略吗?

A:由于不完全信息游戏的限制,对手无法判别你是纯策略还是混合策略。

概率的另一种定义

在通过上面的阐述后,因为混合策略的无差别性加上随机选择,是不是混合策略的概率分布就没有作用了?

混合策略按概率分布的结果,是导致进入下个子节点的Combo数发生变化,从而导致在下个节点博弈时,该组合占比总数的比例不同。


扑克中的频率、概率和混合策略,第8张

少到一定数量,对我们来说,就可以忽略混合策略中这个子树的选择。

所以,在混合策略我们选择大概率方向目的是,确保我们的后续决策能大概率保持在策略树上。

根据贝叶斯派的定义,概率是代表了我们对于某个事件的信念。我们记住并实施Solver中混合策略的结果,也就是我们追求跟Solver解一致的“信念”,而不是去满足外部观测者的频率要求。

偏离策略树OFF-TREE

写到这里,绕了一大圈,除了把“频率”换成“概率”,不是什么都没说吗?我们在混合策略决策中,不是还得看概率的比例吗?

在一个GTO混合策略中,精确到范围里每一手牌,记住所有的概率比例是不可能的任务。我们没有必要在这里花费过多的精力。

在我们练习和实践混合策略中,最重要的还是不要采用超出策略树以外的行动,即保持我们行动的范围或手牌始终位于子树和策略线上,避免OFF-TREE。


扑克中的频率、概率和混合策略,第9张

比如这里的所有KhKx已经不在该条策略线的范围内。当你OFF-TREE时,实际意义上就是你偏离了GTO策略。

Q6:我记不住范围里每手牌的下注或过牌的频率怎么办?

A:你无须掌握每个牌面每手牌的概率,而是应该明白混合策略的存在,理解GTO策略的基本概念,在实际操作中避免OFF-TREE。

Q7:我好不容易记住了每手牌的频率,单局决策中怎么实施出来?

A:随机选择,也可以通过你喜欢的RNG生成。为了避免复杂,你只需要设置大概率、小概率、等概率三个标记点。

频率统计的意义

频率作为一个统计量,在数据量足够的情况下,在给对手定性时是有意义的。

我们如果始终保持自己的范围在GTO策略的行动线上,那么给自己做频率统计就没有意义。

我们并不需要在10手或100手KK里,保证50%BET,50%CHECK。我们这样做了,对手并不一定观测到且统计出结果。就算对手统计出了结果,只要我们下一步还在策略树上,他们也无法利用这些频率来剥削。

所以,给自己强制规定一个频率并去统计没有用处。

Q8:我严格按RNG(随机数生成器)实施了这个频率,对手能不能观测到?

A: 频率是需要观测或统计的,对手时刻在变化,他们未必有数据收集HUD。你严格按频率行动并无必要。

Q9:如果对手观测到或没有观测到,我实施这个频率有用吗?

A:无论对手观测到了或者观测不到你实施的频率,对你的混合策略实现毫无作用。假设你的对手是AI,它从不关心你的任何频率。

混合策略的学习建议

频率不重要:忘记“频率”,不要去模仿Solver的比例,把关注点始终放在范围(Range)、策略树(Tree)和不同的策略线(Line)上。

随机化有用:可以选择你喜欢的随机化方法。但是,根据纯化定理,你不作随机或伪随机也无所谓。

理解Solver解:对于混合策略,我们要知道它会出现在哪些牌面的哪些牌型上,可以去归并和熟悉这种牌型的大概率线路(BBB、BXX、BXB等),并不需要去死记硬背它的所谓“频率”。

避免OFF-TREE:通过大量的练习,比如Simple Trainer、GTO+ PAS、Pokersnowie Training等,锻炼保持策略线和范围对应的肌肉反应。

所有内容与建议均为个人观点,请谨慎甄别采用。


本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 扑克中的频率、概率和混合策略

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情