德州扑克中的数学——贝叶斯与归纳演绎

  • A+

    德州扑克中的数学——贝叶斯与归纳演绎


开始打牌之前还有一位大神需要知道,这位兄台生前的理论奠定了概率论的基础,将统计学与概率论联系在了一起,甚至展现了人脑决策的核心逻辑链条,给机器决策提供了理论基石。他就是英国数学家——托马斯·贝叶斯。可以说不管你从事什么行业,在什么岗位,贝叶斯都是你绕不开的一道坎,可谓人生处处贝叶斯。来见识一下这位大神——

20210302153145



    我们回忆一下《随机与大数定律》中写的:“概率是规律,频率是表现”,概率是事件发生的客观规律,而频率是我们可以通过试验一遍遍得到的外在形式,也就是统计,所以概率与统计是天然共生的。

    概率决定了统计,统计要服从概率,但我们看不见概率,只能触摸统计。

    当时人们已经可以解决“正向概率”的问题,即“假设袋子里有N个白球,M个黑球,你闭眼伸手取出一个球是黑球的概率是多少”,贝叶斯写了一篇文章阐述“逆向概率”,即“如果事先我们不知道袋子里有几个黑球几个白球,而是闭着眼睛摸出一个(或几个)球,观察这些球的颜色,那么我们可以对袋子里黑白球比例做出什么样的推断”。也就是从得到的部分样例去反推整体的规律。

    这其实不仅仅是概率与统计的问题,更是一切自然科学的核心,那就是通过总结归纳抽象证明去得到事物运行的逻辑,诸如万有引力的公式、相对论、牛顿力学、化学反应等等。人类的认知是有限的,但我们仍然可以通过微不足道的认知去探索广袤宇宙中普适的规律和法则。其实回忆起来这种训练,我们从孩童时期就开始了——找规律。而仔细去想投资是什么,不也是在纷繁的经济活动金融活动中寻找一些确定性的逻辑,然后依照这个逻辑在遇到相似的条件时,按照这个逻辑去做判断。本质上和一列数找规律填上下一个数没有什么不同。这也是我们谈论分析框架、分析逻辑时谈论的东西——找规律。回到概率与统计,投资中我们不也是试图在已知的有限的过去中(统计)挖掘背后的规律(概率),试图找到偏离50%的规律,然后辅以不同的回报构建长期+EV的决策嘛。

    先说一下条件概率,就是事件A和事件B,事件A发生的概率是P(A),事件B发生的概率是P(B),二者都发生的概率是P(AB),在事件B发生的条件下,事件A发生的概率是P(A|B)

    先举个条件概率的例子:一天大家玩狼人杀,玩之前小明说,我今天局局预言家。假设今天玩了4局,那么这件事发生的概率是1/12*1/12*1/12*1/12=0.005%。结果玩了3局之后,小明果然前三局都拿了预言家,现在进行第四局,小王说,这把小明再那预言家打死不信,不到万一的概率。其实这一局小明那预言家的概率有1/12=8.33%,而不是0.005%,因为前面三局已经发生,不管多么不可能都已经成为既定现实,那么单次概率是回到1/12随机的情况,因为这就是我们所说的条件概率。

    当然前三局发生小明都是预言家的概率是1/12*1/12*1/12=0.058%,在前三局小明都是预言家的条件下,第四局还是预言家的概率是1/12=8.33%,二者相乘就是四局都是预言家的概率也就是0.005%。

    P(AB)=P(A|B)*P(B)

    接下来我们展示一下最最基本的贝叶斯公式:

20210302153258



P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。

P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。

P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。

P(B)是 B 的先验概率,也作标准化常量(normalizing constant)。

后验概率 = (相似度 * 先验概率)/标准化常量。

P(B|A)/P(B)也被称作标准相似度(standardised likelihood)。

后验概率 = 标准相似度 * 先验概率。

    再举个例子:AA,AK,KK,QQ,AQ,KQ,AJ,KJ,JQ这些超级牌出现的概率有:(16*15/2)/(52*51/2)=9.0498%,一个玩家过去1000手牌入场raise118次,打到最后开牌80次,是超级牌底牌的有55次。现在该玩家raise入场,问他拿有超级牌的可能性有多少?

    事件A:该玩家入场raise;事件B:该玩家底牌是超级牌

P(A)=118/1000=11.8%

P(B)=9.05%

P(B|A)=55/80=68.75%

P(A|B)=68.75%*11.8%/9.05%=89.64%

    也就是说该玩家raise的时候,有接近90%的概率是拿有了超级牌。那么我们要相当的小心。

    谈到贝叶斯公式是什么作用呢,那就是在发牌前,我们面临的是完全随机的事件,发牌后对手的打法包括筹码的下注量,思考的时间,细微的反应,过往的习惯都成为了我们做决策的“条件”,我们实际上做的决策是应该依据当下“条件概率”来做出抉择,而不再是最初的全局随机的情况下的抉择。好比枪口位置紧手玩家的raise和button位松手玩家的raise,我们显然不能用同样的概率分布来衡量。也就是说德州扑克是一个不断根据输入系统的信息进行调整的决策系统,顶级玩家或者人工智能都是会将每个细节纳入考虑,从而调整应对策略的。


    再讲一下归纳与演绎:

    正好最近跟人讲过公理系统,一个数学理论由一个公理系统和所有它导出的定理组成。一个最普及的数学理论就是欧几里得几何体系,具体内容可以去读《几何原本》,从五条公理到各种各样的推论定理,五花八门,我们现在日常接触到的平面几何题目都是欧氏几何体系下的。但古人研究平面几何是从基本的图形研究的,通过归纳演绎最后才总结成了五条公理,有了这五条公理,可以有后面的一切,只要前面五条公理是不言自明的,那么后面万物皆可证。

    另一个反直觉的就是皮亚诺公理:

    1.0是自然数;

    2.每一个确定的自然数a,都有一个确定的后继数a' ,a' 也是自然数(一个数的后继数就是紧接在这个数后面的数,例如,0的后继数是1,1的后继数是2等等);

    3.0不是任何自然数的后继数;

    4.如果b、c的后继数都是自然数a,那么b=c;

    5.任意关于自然数的命题,如果证明了它对自然数0是对的,又假定它对自然数n为真时,可以证明它对n' 也真,那么,命题对所有自然数都真。(这条公理也叫归纳公理,保证了数学归纳法的正确性)

    满足这五条公理组成的就是我们常见的(一般唯一见过的)算术系统,也就是自然数的定义。

    很拗口吧,人类总结归纳自然数的时候明明是数石头,数贝壳慢慢学会的数字,怎么回过头来讲算术系统却要给出这些反常识的公理。

    这就是数学学科的一大特点,我们认识事物来自于归纳推理induction,而一旦归纳推理到了终极形态,也就是不言自明的地步,那么我们便可以反向演绎推理deduction,进而将同一体系下的全部内容推导出来。所以说理论数学家,理论上只需要纸笔,就可以还原古往今来全部数学理论,靠的就是演绎,前人归纳好了系统,后人可以尽情演绎。这也是为什么数学越学到后面,越抽象,因为靠观察只能得到有限的认知,只有归纳到源头,才能靠着演绎拥有无限的可能。

    举个例子:你拿到一个拼好的乐高玩具,你把它拆成了一个个最小单位的积木,然后你可以组装成任意你喜欢的样子。这就是归纳与演绎。

    5336397c6b5df5818d9d22a3d6f797ee.

    最后举个例子:一名紧手玩家,过往的数次打牌过程中,3-bet基本都是AA,KK,QQ,AK,AQ,JJ,AJ,KQ,KJ,JQ的超级牌,那么这次小盲位的他3-bet了,你拿着55要如何行动?

    行动不分对错,我们这里展示一下思考方式。根据过往的紧手玩家的打法(统计),3-bet是超级牌的概率极高,那么我们除非有近似的牌力,否则用两张8以上的牌诸如K9去打是极其不划算的,因为成牌的大量可能性会被对手的范围block住,即使中牌也会输。鉴于本身超级牌的胜率就高于我们,大对子对小对子胜率几乎是八二开,我们随便入场长期一定是-EV的。所以80%左右弃牌,20%左右入场的策略是较为合适的。

    这里我们再次提到了策略是一个概率分布,而不是单次的选择。

    举个例子,石头剪子布游戏,也是有最优策略的,那就是严格随机的1/3石头、1/3剪子、1/3布,这就是一个概率分布的策略,任何策略对战这个策略长期都是不占优的,这就是博弈论下的最优策略也叫GTO(Game Theory Optimal),这也是德州扑克中的一个主流派别,就是尽可能得接近GTO打法,从而不露破绽。

    另一个主流派系就是剥削打法,就是利用对手在平衡打法上的偏离,去有针对的自己主动偏离,进而压制对手打法,获取价值。其实生肖君认为GTO和剥削打法同根同源,在不了解对手信息的情况下,运用标准的策略树,打的是P(A),在得到了额外的信息B之后,进行调整,打的是P(A|B),前者就是GTO,后者就是剥削,掌握了贝叶斯的思想,就会发现他们背后的一致性。

德州扑克
德州扑克