算卦公式是怎么形成的(大数据背后的神秘公式)

王晓峰文大数据人工智能海难搜救生物医学邮件过滤这些看起来彼此不相关的领域之间有什么联系答案是它们都会用到同一个数学公式贝叶斯公式它虽然看起来很简单很不起眼但却有着深刻的内涵那么贝叶斯公式是如何从默默无闻到现在广泛应用无所不能的呢一什么是贝叶斯公式18世纪英国业余数学家托马斯贝叶斯ThomasBay...

算卦公式是怎么形成的(大数据背后的神秘公式)

算卦公式是怎么形成的(大数据背后的神秘公式)

王晓峰文

大数据人工智能海难搜救生物医学邮件过滤这些看起来彼此不相关的领域之间有什么联系答案是它们都会用到同一个数学公式贝叶斯公式它虽然看起来很简单很不起眼但却有着深刻的内涵那么贝叶斯公式是如何从默默无闻到现在广泛应用无所不能的呢

一什么是贝叶斯公式

18世纪英国业余数学家托马斯贝叶斯ThomasBayes17021761提出过一种看上去似乎显而易见的观点用客观的新信息更新我们最初关于某个事物的信念后我们就会得到一个新的改进了的信念这个研究成果因为简单而显得平淡无奇直到他死后的两年才于1763年由他的朋友理查德普莱斯帮助发表它的数学原理很容易理解简单说就是如果你看到一个人总是做一些好事则会推断那个人多半会是一个好人这就是说当你不能准确知悉一个事物的本质时你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率用数学语言表达就是支持某项属性的事件发生得愈多则该属性成立的可能性就愈大与其他统计学方法不同贝叶斯方法建立在主观判断的基础上你可以先估计一个值然后根据客观事实不断修正

1774年法国数学家皮埃尔西蒙拉普拉斯PierreSimonLaplace17491827独立地再次发现了贝叶斯公式拉普拉斯关心的问题是当存在着大量数据但数据又可能有各种各样的错误和遗漏的时候我们如何才能从中找到真实的规律拉普拉斯研究了男孩和女孩的生育比例有人观察到似乎男孩的出生数量比女孩更高这一假说到底成立不成立呢拉普拉斯不断地搜集新增的出生记录并用之推断原有的概率是否准确每一个新的记录都减少了不确定性的范围拉普拉斯给出了我们现在所用的贝叶斯公式的表达

PABPBAPAPB

该公式表示在B事件发生的条件下A事件发生的条件概率等于A事件发生条件下B事件发生的条件概率乘以A事件的概率再除以B事件发生的概率公式中PA也叫做先验概率PAB叫做后验概率严格地讲贝叶斯公式至少应被称为贝叶斯拉普拉斯公式

二默默无闻200年

贝叶斯公式现在已经非常流行甚至在热门美剧生活大爆炸中谢耳朵也秀了一下但它真正得到重视和广泛应用却是最近二三十年的事其间被埋没了200多年这是为什么呢原因在于我们有另外一种数学工具经典统计学或者叫频率主义统计学我们在学校学的主要是这种统计学它在200多年的时间里一直表现不错从理论上讲它可以揭示一切现象产生的原因既不需要构建模型也不需要默认条件只要进行足够多次的测量隐藏在数据背后的原因就会自动揭开面纱

在经典统计学看来科学是关于客观事实的研究我们只要反复观察一个可重复的现象直到积累了足够多的数据就能从中推断出有意义的规律而贝叶斯方法却要求科学家像算命先生一样从主观猜测出发这显然不符合科学精神就连拉普拉斯后来也放弃了贝叶斯方法这一思路转向经典统计学因为他发现如果数据量足够大人们完全可以通过直接研究这些样本来推断总体的规律

打个比方来帮助我们理解这两种统计学方法的区别假如我们想知道某个区域里海拔最低的地方经典统计学的方法是首先进行观测取得区域内不同地方的海拔数据然后从中找出最低点这个数据量必须足够多以反映区域内地形全貌的特征这样我们才能相信找到的就是实际上的最低点而贝叶斯方法是我不管哪里最低就凭感觉在区域内随便选个地方开始走每一步都往下走虽然中间可能有一些曲折但相信这样走早晚能够到达最低点可以看出贝叶斯方法的关键问题是这个最终到达的低点可能不是真正的最低点而是某个相对低点它可能对该区域的地形碗型马鞍形等和最初我们主观选择的出发点有依赖性如果问题域是碗型的我们到达的就是最低点但如果是马鞍形或者其他复杂曲面那么我们到达的可能是多个相对低点极点中的一个而不是真正的最低点这是贝叶斯方法最受经典统计学方法诟病的原因也是它在过去的200多年被雪藏的原因所在

贝叶斯方法原理示意图

算卦公式是怎么形成的(大数据背后的神秘公式)

三初显威力

长期以来贝叶斯方法虽然没有得到主流学界的认可但其实我们经常会不自觉地应用它来进行决策而且还非常有效比如炮兵在射击时会使用贝叶斯方法进行瞄准炮弹与子弹不同它的飞行轨迹是抛物线瞄准的难度更大因此他们会先根据计算和经验把炮管调整到一个可能命中的瞄准角度先验概率然后再根据炮弹的实际落点进行调整后验概率这样在经过23次射击和调整后炮弹就能够命中目标了

在日常生活中我们也常使用贝叶斯方法进行决策比如在一个陌生的地方找餐馆吃饭因为之前不了解哪家餐馆好似乎只能随机选择但实际上并非如此我们会根据贝叶斯方法利用以往积累的经验来提供判断的线索经验告诉我们通常那些坐满了客人的餐馆的食物要更美味些而那些客人寥寥的餐馆食物可能不怎么样而且可能会被宰这样我们就往往通过观察餐厅的上座率来选择餐馆就餐这就是我们根据先验知识进行的主观判断在吃过以后我们对这个餐馆有了更多实际的了解以后再选择时就更加容易了所以说在我们认识事物不全面的情况下贝叶斯方法是一种很好的利用经验帮助作出更合理判断的方法

而两个标志性的事件在让学术界开始重视贝叶斯方法上起到了重要作用

1联邦党人文集作者公案

1787年5月美国各州当时为13个代表在费城召开制宪会议1787年9月美国的宪法草案被分发到各州进行讨论一批反对派以反联邦主义者为笔名发表了大量文章对该草案提出批评宪法起草人之一亚历山大汉密尔顿着急了他找到曾任外交国务秘书即后来的国务卿的约翰杰伊以及纽约市国会议员麦迪逊一同以普布利乌斯Publius的笔名发表文章向公众解释为什么美国需要一部宪法他们走笔如飞通常在一周之内就会发表34篇新的评论1788年他们所写的85篇文章结集出版这就是美国历史上著名的联邦党人文集

联邦党人文集出版的时候汉密尔顿坚持匿名发表于是这些文章到底出自谁人之手成了一桩公案1810年汉密尔顿接受了一个政敌的决斗挑战但出于基督徒的宗教信仰他决意不向对方开枪在决斗之前数日汉密尔顿自知时日不多他列出了一份联邦党人文集的作者名单1818年麦迪逊又提出了另一份作者名单这两份名单并不一致在85篇文章中有73篇文章的作者身份较为明确其余12篇存在争议

1955年哈佛大学统计学教授FredrickMosteller找到芝加哥大学的年轻统计学家DavidWallance建议他跟自己一起做一个小课题他想用统计学的方法鉴定出联邦党人文集的作者身份

但这根本就不是一个小课题汉密尔顿和麦迪逊都是文章高手他们的文风非常接近从已经确定作者身份的那部分文本来看汉密尔顿写了94万字麦迪逊写了114万字汉密尔顿每个句子的平均长度是3455字而麦迪逊是3459字就写作风格而论汉密尔顿和麦迪逊简直就是一对双胞胎汉密尔顿和麦迪逊写这些文章用了大约一年的时间而Mosteller和Wallance甄别出作者的身份花了10多年的时间

如何分辨两人写作风格的细微差别并据此判断每篇文章的作者就是问题的关键他们所采用的方法就是以贝叶斯公式为核心的包含两个类别的分类算法先挑选一些能够反映作者写作风格的词汇在已经确定了作者的文本中对这些特征词汇的出现频率进行统计然后再统计这些词汇在那些不确定作者的文本中的出现频率从而根据词频的差别推断其作者归属这其实和我们现在使用的垃圾邮件过滤器的原理是一样的

他们是在没有计算机帮助的条件下用手工处理大数据这一工程的耗时耗力是可想而知的将近100个哈佛大学的学生帮助他们处理数据学生们用最原始的方式用打字机把联邦党人文集的文本打出来然后把每个单词剪下来按照字母表的顺序把这些单词分门别类地汇集在一起有个学生干得累了伸了个懒腰长长地呼了一口气他这一口气用力太猛一下子把刚刚归置好的单词条吹得如柳絮纷飞一屋子学生瞬间石化估计很多人连灭了他的心都有而这只是手工大数据时代的日常

Mosteller和Wallance这是要在干草垛里找绣花针他们首先剔除掉用不上的词汇比如联邦党人文集里经常谈到战争立法权行政权等这些词汇是因主题而出现并不反映不同作者的写作风格只有像inanofupon这些介词连词等才能显示出作者风格的微妙差异一位历史学家好心地告诉他们有一篇1916年的论文提到汉密尔顿总是用while而麦迪逊则总是用whilst但仅仅有这一个线索是不够的while和whilst在这12篇作者身份待定的文章里出现的次数不够多况且汉密尔顿和麦迪逊有时候会合写一篇文章也保不齐他们会互相改文章要是汉密尔顿把麦迪逊的whilst都改成了while呢

当学生们把每个单词的小纸条归类粘好之后他们发现汉密尔顿的文章里平均每一页纸会出现两次upon而麦迪逊几乎一次也不用汉密尔顿更喜欢用enough麦迪逊则很少用其它一些有用的词汇包括thereon等等1964年Mosteller和Wallance发表了他们的研究成果他们的结论是这12篇文章的作者很可能都是麦迪逊他们最拿不准的是第55篇麦迪逊是作者的概率是2401

这个研究引起了极大的轰动但最受震撼的不是宪法研究者而是统计学家Mosteller和Wallance的研究把贝叶斯公式这个被统计学界禁锢了200年的幽灵从瓶子中释放了出来

2天蝎号核潜艇搜救

2014年初马航MH370航班失联所有人都密切关注搜救的进展情况那么我们是用什么方法在茫茫大海中寻找失联的飞机或者船只的呢这要从天蝎号核潜艇说起

1968年5月美国海军的天蝎号核潜艇在大西洋亚速海海域突然失踪潜艇和艇上的99名海军官兵全部杳无音信按照事后调查报告的说法罪魁祸首是这艘潜艇上的一枚奇怪的鱼雷发射出去后竟然敌我不分扭头射向自己让潜艇中弹爆炸

为了寻找天蝎号的位置美国政府从国内调集了包括多位专家的搜索部队前往现场其中包括一位名叫JohnCraven的数学家他的头衔是美国海军特别计划部首席科学家在搜寻潜艇的问题上Craven提出的方案使用了上面提到的贝叶斯公式他召集了数学家潜艇专家海事搜救等各个领域的专家每个专家都有自己擅长的领域但并非通才没有专家能准确估计到在出事前后潜艇到底发生了什么有趣的是Craven并不是按照惯常的思路要求团队成员互相协商寻求一个共识而是让各位专家编写了各种可能的剧本让他们按照自己的知识和经验对于情况会向哪一个方向发展进行猜测并评估每种情境出现的可能性据说为了给枯燥的工作增加一些趣味Craven还准备了威士忌酒作为投注正确的奖品

因为在Craven的方案中结果很多是这些专家以猜测投票甚至可以说赌博的形式得到的不可能保证所有结果的准确性他的这一做法受到了很多同行的质疑可是因为搜索潜艇的任务紧迫没有时间进行精确的实验建立完整可靠的理论Craven的办法不失为一个可行的办法

由于失事时潜艇航行的速度快慢行驶方向爆炸冲击力的大小爆炸时潜艇方向舵的指向都是未知量即使知道潜艇在哪里爆炸也很难确定潜艇残骸最后被海水冲到哪里Craven粗略估计了一下半径20英里的圆圈内的数千英尺深的海底都是天蝎号核潜艇可能沉睡的地方要在这么大的范围这么深的海底找到潜艇几乎成了不可能完成的任务

算卦公式是怎么形成的(大数据背后的神秘公式)

Craven把各位专家的意见综合到一起得到了一张20英里海域的概率图整个海域被划分成了很多个小格子每个小格子有两个概率值p和qp是潜艇躺在这个格子里的概率q是如果潜艇在这个格子里它被搜索到的概率按照经验第二个概率值主要跟海域的水深有关在深海区域搜索失事潜艇的漏网可能性会更大如果一个格子被搜索后没有发现潜艇的踪迹那么按照贝叶斯公式这个格子潜艇存在的概率就会降低

算卦公式是怎么形成的(大数据背后的神秘公式)

由于所有格子概率的总和是1这时其他格子潜艇存在的概率值就会上升

算卦公式是怎么形成的(大数据背后的神秘公式)

每次寻找时先挑选整个区域内潜艇存在概率值最高的一个格子进行搜索如果没有发现概率分布图会被洗牌一次搜寻船只就会驶向新的最可疑格子进行搜索这样一直下去直到找到天蝎号为止

最初开始搜救时海军人员对Craven和其团队的建议嗤之以鼻他们凭经验估计潜艇是在爆炸点的东侧海底但几个月的搜索一无所获他们才不得不听从了Craven的建议按照概率图在爆炸点的西侧寻找经过几次搜索潜艇果然在爆炸点西南方的海底被找到了

由于这种基于贝叶斯公式的方法在后来多次搜救实践中被成功应用现在已经成为海难空难搜救的通行做法

2009年法航空难搜救的后验概率分布图

算卦公式是怎么形成的(大数据背后的神秘公式)

2014马航MH370失联搜索区域

算卦公式是怎么形成的(大数据背后的神秘公式)

与计算机的结合使贝叶斯公式巨大的实用价值进一步体现出来它不但为我们提供了一条全新的问题解决路径带来工具和理念的革命而且甚至可能是人类大脑本身的认知和构建方式敬请期待大数据背后的神秘公式下贝叶斯革命

参考文献

1新发现杂志2013年2月解密世界的方程式

2吴军数学之美

3何帆先放一把火

4科学松鼠会死理性派是怎么判断漂亮女孩是不是单身的

5统计之都创作小组失联搜救中的统计数据分析

投稿提供新闻线索转载授权请联系商务合作事宜请联系

相关推荐

推荐内容

推荐阅读