关于贝叶斯模型的先验概率和后验概率对比
学习概率论的时候,通常是以抛硬币或口袋里摸小球的实验来讲解概率。
这些概率大多是可以基于统计分析(穷尽各种可能)然后分析出相应的概率的,但实际生活、工作中我们面临的问题往往不是那么标准的概率事件,往往是多种因素交织在一起的。
如何正确的理解概率,对于判断很多问题具有重要意义,特别是在工作、生活、投资理财等方方面面。
塔勒布的《黑天鹅》中讲到了平均斯坦、极端斯坦两个不同的国度,如同法国纸币上印刷的高斯头像和正态分布图像一样,我们以为世界是正态分布的,其实并不是。
那些在数据清洗过程中,丢弃掉的异常数据,对于事件发生的概率是有影响的,甚至是致命的。
塔勒布主张面对风险,应当主动拥抱,接受微小可接受的损失,避免极端的不可接受的损失。
对于概率的学习,影响到贝叶斯神经网络算法的理解,特别是先验与后验概率的理解。
最近遇到一个贝叶斯神经网络的模型方法,查阅资料尝试理解:先验概率和后验概率。
由于思维能力有限,并未能充分理解, 以下摘录别人的博客内容,作为学习的笔记,待以后有机会理解到“先验概率”+”后验概率“–>贝叶斯概率算法。
[转]先验与后验
从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。
先验概率是指根据以往经验和分析得到的概率,如全概率公式中的,它往往作为“由因求果”问题中的“因”出现。
后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因” 。
后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。
先验概率和后验概率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概率值,那么这个新的概率值被称为后验概率。
先验概率的分类:利用过去历史资料计算得到的先验概率,称为客观先验概率; 当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。
后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。
先验概率和后验概率的区别:先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料;
先验概率的计算比较简单,没有使用贝叶斯公式;
而后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。
[转][转]下面转自其他博客
先验概率与后验概率”概率就是无知,而不是事务本身是随机的”。
事情有N种发生的可能,我们不能控制结果的发生,或者影响结果的机理是我们不知道或是太复杂超过我们的运算能力。
新发现一个物种,到底是猫,还是小老虎呢(朱道元的经典例子?) 是由于我们的无知才不能确定判断。
先验概率 ( Prior probability)先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率。
先验概率通常是经验丰富的专家的纯主观的估计。
比如在法国大选中女候选罗雅尔的支持率 p, 在进行民意调查之前, 可以先验概率来表达这个不确定性。
后验概率 ( posterior probability) Def: Probability of outcomes of an experiment after it has been performed and a certain event has occurred。后验概率可以根据通过Bayes定理, 用先验概率和似然函数计算出来。
下面的公式就是用先验概率密度乘上似然函数,接着进行归一化, 得到不定量X在Y=y的条件下的密度,即后验概率密度:
其中,fX(x)
为X的先验密度,LX | Y = y(x) = fY | X = x(y)
为似然函数..
看了很多张五常的文章以后,思考一些经济学或者统计学的问题,都试着从最简单处入手。
一次,在听一位英国帝国理工大学的教授来我们学校讲学,讲的主要是经济计量学的建模,以及一些具体应用实例,没想到听报告过程中,一直在思考一道最简单的概率问题。关于“抛硬币”试验的概率问题。
问题是这样的:
- 多次抛硬币首先是一个贝努利试验,独立同分布的
- 每次抛硬币出现正、反面的概率都是1/2
- 当然硬币是均匀同分布的,而且每次试验都是公正的
在上述假设下,假如我连续抛了很多次,例如100次,出现的都是正面。当然,稍懂概率的人都知道,这是一个小概率事件,但是小概率事件是可能发生的。
我要问你,下次也就是我抛第101次,出现正、反的概率是不是相等?
我认为是不相等的,出现反面的概率要大于正面。我的理由是,诸如“抛硬币”等独立同分布试验都有无数人试验过,而且次数足够多时,正、反面出现的概率应该是逼近1/2的。也就是说,这个过程,即使是独立同分布的试验它也是有概率的。
提出这个问题之后,我请教了很多同学和老师,大部分同学一开始都是乍一听这个问题,马上对我的观点提出批判,给我列条件概率的公式,举出种种理由,不过都被我推翻了很巧的是,没几天,我在图书馆过期期刊阅览室找到一篇关于独立同分布的newman定理推广到markov链过程的文章,见97年《应用统计研究》,我看不大懂,复印了下来,去请教我们系数理统计方面比较权威的老师,他的答复我基本满意。
他将数理统计可以分为两大类:频率统计学派和贝叶斯统计学派。
目前,国内的数理统计主要是频率统计。
又给我分析了什么是先验概率,先验概率和条件概率有什么区别,他认为:在“抛硬币”试验当中,硬币的均匀分布和抛的公正是先验条件或先验概率,但是抛100次正面却是条件概率,接着他又解释了概率的记忆功能,他讲当贝努利试验次数不够大的时候,它不具有记忆功能,次数足够大的时候,也就是服从二项分布时,具有记忆功能??。这时,连续抛很多次正面就可以算作是先验概率。
注:(我的点评)
这里二项分布似乎不对,不应该是记忆功能?
应该是“频率统计派”和“贝叶斯统计学派”分歧,
“频率统计派”认为已知事件发生概率,从上帝视角观察全局,从上而下的推演概率;
“贝叶斯统计学派”认为事件发生概率未知,不能从上帝视角看待问题,应该随时结合最新事件概率更新后续概率;
原博主的观点似乎是应该全盘考虑概率偏差,当发生100次正面以后,按照回归平均0.5概率的预期目标,调整第101次的概率。
如果硬币是均质的,正方面概率相同,那么回归似乎也有道理。
但这样,我又不懂了。
我认为,即使只刚抛过1次,如果考虑这个过程的话,对第二次的结果也应该是有影响的,你们认为呢?这个问题,这位老师也没能解释好。
研究这个问题的启示或者意义:
推翻了一些东西,可能很大,也可能是我牛角尖钻得太深了?
一个试验,我在一间屋子里做“抛硬币”的试验,我“一不小心”连续抛出了100次正面,这里请你不要怀疑硬币质地的均匀和我抛法的不公正。
这时,你推门进了实验室,我和你打赌,下次抛硬币会出现反面,给你很高的赌注。因为我知道我已经抛了100次正面,在这个过程中正反面出现的概率是要往1:1均衡的。
但是,我不会告诉你,我已经连续抛了100次正面。
你当然认为正反面出现的概率是1:1,而且你的理论依据也是正确的。
但是,你的正确的理论可能会使你输钱的?研究这个问题,我是想提出两个问题:
其一,正确的理论可能得不出正确的结果,
其二,信息的不对称问题。
验前概率就是通常说的概率,验后概率是一种条件概率,但条件概率不一定是验后概率。
贝叶斯公式是由验前概率求验后概率的公式。
举一个简单的例子:一口袋里有3只红球、2只白球,采用不放回方式摸取。
求:
⑴ 第一次摸到红球(记作A)的概率;
⑵ 第二次摸到红球(记作B)的概率;
⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。
解:
⑴ P(A)=3/5,这就是验前概率;
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2 , 这就是验后概率。
贝叶斯统计学派
如果没有上帝视角,那么我们知道贝叶斯统计学派的分析方法似乎更有道理,根据最新获取的信息随时更新对于未来的预期,我们人类从来没有过上帝视角的确定概率知识。一直以来都是按照实用主义,随时更新自己对于不同事物的看法,更好的适应了环境的变化,实现了对于地球的全面领导。
参考
1。作者:H!RO,“先验与后验” https://www.cnblogs.com/xdu-hiro/p/16719934.html