条件概率大家都很熟悉,就是事件B在另外一个事件A已经发生的条件下发生的概率,通常记为p(B|A)。关于条件概率有下面这样一个有趣的例子:
公元697年,地中海一带成立了一个新的国家叫威尼斯共和国,该国由很多贵族家族所统治。从建立共和国到1797年威尼斯共和国被奥地利吞并,这些家族之间保持着一种民主选举共和国最高领导的程序。当前任总督去世后,贵族们先抽签选出一组元老,接着这些元老再选一些没有被抽到的贵族加入他们的行列,然后再从扩大的元老群里面抽签选出一组新的元老,这样的程序进行几次之后,会选出一群最后的总督候选人,总督就在这群人当中产生。
每个阶段的抽签都要准备一批相同的蜡球,有的蜡球里什么都没有,有的蜡球里面有一张小纸条,上面写着“元老”二字。不妨设在某一次总督选举中的第二阶段有30位元老,自然准备30个蜡球,其中有9个蜡球中纸条上写着“元老”两字,一个小孩被带过来,他从装有蜡球的篮子中随机取出一个蜡球,交给第一位元老候选人,这位元老候选人就打开蜡球,看看自己是否能够成为下一阶段的元老候选人。接着,小孩从篮子中取出第二个蜡球,交给第二位元老候选人,第二位再打开蜡球,以此类推。在小孩选出第一个蜡球前,候选人群中的每个成员被选为下个阶段元老的概率都是 9/30。如果第一个蜡球是空的,剩下的候选人中每个人就有 9/29 的概率成为下个阶段的元老。但如果第一个蜡球里有纸条,则其余人被选中的机会就只剩下8/29。一旦第二个蜡球被选定且被打开,则下一个人被选中成为元老的概率同样会减少或增加,是减少还是增加取决于前次的抽球结果。这样继续抽下去,直到所有的 9个纸条都被抽出为止。而在这时,剩下的候选人下一阶段成为元老的概率就降为0,即使蜡球还没有抽完,抽签也没有必要再进行下去了。
这是一个条件概率的例子,某一特定候选人被选为下一阶段元老的概率,取决于在他的选择之前被选出的蜡球情况,也就是说研究事件的发生要在条件事件发生之后,这个观点在18世纪初没有人去怀疑它。1763年,英国数学家托马斯·贝叶斯(Thomas Bayes,1702-1761)的一篇遗作中提出了一种“逆时间”的条件概率公式,即我们现在所熟知的贝叶斯公式(又称贝叶斯定理的事件形式)

其中为全概率公式
假设两事件先后发生,先发生的称为“前事件”,后发生的称为“后事件”,以“前事件”为条件讨论“后事件”的概率是有意义的,就像民主选举中抽取蜡球;贝叶斯发现,我们也可以“后事件”为条件计算“前事件”发生的概率,比如:已知某人是唯一得到大奖的人,然后再计算该彩票游戏公平不公平的概率,从表面上考虑,这好像是没有意义的“马后炮”。
现在,我们已经知道这绝非毫无意义,贝叶斯将条件概率倒转过来反倒很有意义。举一个现实中的例子,假设B表示某种疾病,Z表示患上疾病B后表现出的某种症状。我们通常可以从一本医学教科书或者其他一些资料中找到病人患上疾病B后将表现出症状Z的概率。也就是,我们已知p(Z|B),这很容易。但是从诊断学的角度来讲,p(Z|B)并不十分有用,因为同一种症状可以由多种疾病引起,某人表现出症状Z并不能确定就患上了疾病B。医生们面临的问题是,已知症状后如何确定病人患了什么病,而不是患上某种疾病后将出现什么症状。因此,真正要知道的是:某人表现出症状Z,那么他患有疾病B的概率有多大哪?即p(B |Z),这恰恰是贝叶斯公式的计算内容。
为了理解贝叶斯定理中所包含的“逆概率”思想,想象我们面临一组假设,每个假设都声称能解释同一种现象,贝叶斯公式使我们能用数据及一些额外的条件,来计算每个假设可能是正确的概率。虽然,只知道每个假设正确的概率还不能使我们一定能选出正确的假设,但是我们可以确定哪个假设最可能是真的。
为了让这一思想更具体些,假设我们知道一个坛子里面有三个不同颜色的球。下面的结论中有一个是正确的(A)三个白球(B)两白球一黑球(C)一白球两黑球。现在,我们从坛子中又放回的取三次每次取一球,记下颜色为白色、白色、白色。已知我们刚抽取的三个球都是白色(先验信息),而且起初我们没有任何理由倾向任一假定,也就是说我们可以认为三个假定正确的概率各为1/3,即p(A)=p(B)=p(C)=1/3(贝叶斯假设),那么我们利用贝叶斯公式可以计算每一个假定正确的概率。
记A表示三个白球,B表示两白球一黑球,C表示一白球两黑球,T表示有放回抽取三次皆是白球,P(A|T)=p(三个白球|有放回抽取三次皆是白球)
P(T|A)=p(有放回抽取三次皆是白球|三个白球)
P(B|T)=p(两白球,一黑球|有放回抽取三次皆是白球)
P(T|B)=p(有放回抽取三次皆是白球|两白球,一黑球)
P(C|T)=p(一白球,两黑球|有放回抽取三次皆是白球)
P(T|C)=p(有放回抽取三次皆是白球|一白球,两黑球)



我们得到结论:若有放回抽取三次皆是白球,则坛子内可能有三个白球的概率为27/32=84.375%,坛子内可能有两个白球一个黑球的概率为4/32=12.5%,坛子内可能有一个白球两个黑球的概率为1/32=3.125%。因此最可能正确的假设是坛子内有三个白球。这种“逆概率”思想被认为是概率统计理论中最早的归纳推断思想。
直接应用贝叶斯定理,可以把条件概率反转过来,比这更为重要的是使用贝叶斯定理估计分布的参数。一些统计学家认为,可以把一项分布的参数本身看作是随机的,然后计算与这些参数相关的概率。例如,我们可能想要比较两种癌症治疗方法,并希望得到结论说“我们有 95%的把握认为使用治疗方法A 会比使用治疗方法 B的 5年期存活率高”。我们只要应用贝叶斯公式一两次就可以解决这个问题。
证明贝叶斯定理所需要的代数知识,既不深奥也不广博,统计学课程中的基本概率知识足以完成证明。用现代符号表示的贝叶斯定理,形式优美、表达简练,在明白了研究事件的发生与条件事件的发生无时间先后的前提下,我们看到贝叶斯定理时,它看起来是显然成立的。事实上,在贝叶斯的观点发表以后很长的一段时间并没有引起人们的注意。经过法国数学家拉普拉斯更进一步的阐述,贝叶斯定理才逐渐进入了统计学家的视野。随着时间的推移,贝叶斯定理引起了统计理论家的怀疑。正如前面的例子中提到的,贝叶斯定理需要加入额外的条件(取球问题中,我们假定最初的三个结论正确的概率是相等的),这就是所谓的贝叶斯假设。这些额外的假设往往会涉及到研究者的主观判断,而不同的研究者可能会有不同的主观判断。比如在取球的例子中,既然又放回的抽取三次皆为白球,那么根据经验也可以假定(A)三个白球正确的概率要大一些,p(A)=3/5。甚至,有些时候主观判断是靠不住的,因为它们受到研究者对局势把握的个人偏见的影响,不同的主观判断将可能导致大相径庭的结果。但是,也有学者认为,研究者使用自己的专门知识或经验是很必要的,比如经验丰富的老医生在诊断时往往会作出一些主观判断。
《消防科学与技术》
《福建体育科技》
《信息通信技术与政策》
《重庆工商大学学报(自然科学版)》
编辑QQ
编辑联络
