完本神战

完本神战>牛津通识课:概率 > 07 在科学医学和运筹学中的应用(第1页)

07 在科学医学和运筹学中的应用(第1页)

07在科学、医学和运筹学中的应用

AppliSce,MedidOperationsResearch

我们会根据情景使用不同方式来对概率进行评定或者诠释。但是,就像大卫·汉德(DavidHand)在他的《牛津通识课:统计》(Statistics:AVeryShortIntrodu)中写的那样,“……微积分是一样的”,换言之,概率的操纵方式是不变的。

你头脑中要牢记这个学科的中心思想:加法和乘法定理、独立性、将客观概率和频率联系起来的大数定律、在将随机数求和时候使用的高斯分布、其他的一些经常出现的分布函数、反映总体情况时有用的平均值和方差。我们可能不指望我们对相关概率知道得像前几章那样精确,但是一个对于问题大致正确的回答对于作出合适的决定有良好的指导意义。就像统计学家乔治·博克斯(GeeBox)所说的那样,“所有的模型都不是完全正确的,但是有一些是很有用的”。

下两章中举例说明了概率的应用,这些应用以章节标题粗略地分了组。

布朗运动和随机游走

1827年,植物学家罗伯特·布朗(RobertBrown)观察到,在**中悬浮的花粉粒子似乎随机地在动来动去。将近80年之后,阿尔伯特·爱因斯坦(AlbertEinstein)对其给出了一个解释:花粉粒子被**中的分子持续地撞击。这种运动当然是发生在三维空间中的,但是为了创建一个令人满意的模型,我们首先思考在一条直线上的运动。

假设每一步运动都是具有固定长度的,有时向左有时向右,每一次运动都是独立的。这个概念就叫作随机游走(RandomWalk)。在许多次跳跃之后的位置只取决于向两个方向的跳跃次数的差值;从起始点计算的距离平均值和方差与进行跳跃的次数成正比。

下面进行一个微妙的计算:在一个固定的时间段中,增加跳跃的频率,并且降低每一次跳跃的距离。在这两种因素平衡的情况下,极限情况就是连续运动,运动经过的随机距离遵循高斯分布(依据中心极限定理),这个分布的平均值和方差都与时间段长度成正比。如果向左和向右的运动是等可能的,平均值就会是0。

爱因斯坦对于布朗的观察作出的解释,是粒子在三维空间中运动,基于上文给出的原因,在每一个方向上的运动都遵循高斯分布。他对原子和分子的行为作出了预测,这些预测推动了一些实验,这些实验消除了有关原子和分子存在的所有悬而未决的问题。

术语“布朗运动(Brownianmotion)”本应该专指在**中的粒子的实际运动,但是它也被用于指代描述这种运动的数学模型。

随机数

“随机数”这个词指代的是下列两种想法之一。第一,就像理想情况下的色子游戏或者轮盘赌游戏,一个数从一个有限的列表中被取出来,所有的这些数都是等可能的。第二,就像从一个随机的一点折断一根木棍一样,一个点被从一个连续的区间中取出来,没有任何一小段是比其他的小段更容易被取点的。取出这样的随机数中的一段长序列的方法具有广泛的应用,序列中的每一个值与其他的值都是相互独立的,下一部分会举例说明这一点。

在1955年,一本名为《一百万个随机数》(OneMilliits)出版了。它的确就是它的书名描述的那样:一页又一页的0到9的数字,被分块以便阅读,但是连续的数字是完全不可预测的——无论前面的数字是什么,你都会有110的概率猜对下一个。如今,现代计算机已经有内置的软件来获取与之相同的结果。输入一个初始值——随机数种子(seed),一个确定的数学公式就会给出下一个值,它被当作新的随机数种子,以此类推。这个过程中毫无随机意义可言,并且如果每一次都是用相同的随机数种子,就保证会生成完全相同的数列。但是,基于数学公式的巧妙选择,生成的序列成了统计检验中的基础,而且对于任何目的和用途来说,它看起来就好像是随机的一样。我们用伪随机数列(pseudo-randomsequence)这个术语来称呼它。

无论在这个过程中有多么小心,一定会有一些方法中的谬误将会引起对随机数应用场景的担心。但是依赖大量受人尊敬的科学家的经验,我还是会认为我电脑中根据需求产生的随机数是可以接受的。(显而易见的内部人员欺诈的风险导致了这些方法不能应用于彩票摇奖,或者英国溢价债券。)

蒙特卡罗方法

连续37次转动标准的欧洲轮盘赌轮会得到多少不同的数字?理论上讲,这个个数会是1~37之间的任何数,但是那些极端的值会十分罕见,最常出现的不同数字的个数是多少?

这个问题第一次呈现在我面前的时候,我没有立即看出有什么简单的方法能解决它。转动赌轮37次会得到3737(一个有59位的十进制数)种可能的结果,而且当你试图罗列,例如有28个不同数字的结果的时候,你将会很快失去热情。一个更加吸引人的方法是进行一个所谓的蒙特卡罗模拟(Monteulation)。

在这里,计算机产生的随机数流将会用来模拟37次转动赌轮的结果,之后计算机将会计算有多少不同的数字出现了。这个过程将会重复100万次,结果是24个不同数字出现了203739次,而23个数字只出现了199262次。最接近的竞争对手是22或者25个数字,都出现了不到160000次。大数定律告诉我们不同的结果出现的频率将会稳定在它们的各自的概率,而且这些数字的确本质上证实了这件事:最有可能的结果就是有24个不同的结果会出现,概率刚刚超过20%。

几天后,我羞愧于当时没能找到一种标准的方法来解决这个问题!我能够计算出对于任意的X,转37次赌轮得到X个不同数字的精确的概率,以证明上面的结论是正确的。但是这不会让应用于这类问题的模拟失去效力——快速而粗糙的结果也会是很有用的。的确,模拟给出的结果与精确计算得到的结果保持一致这个事实,增加了我对计算机随机数生成器按预想运行的信任。

一个更加严肃的蒙特卡罗方法的应用是在聚合物化学(polymerchemistry)中。一个分子是由大量的原子被随机扭曲的长链连接构成的。原子们只能出现在均匀分割的晶格中,并且关键的一点是,没有两个原子能够出现在同一个位置。从分子的一端到另一端的距离可能有多远?

我们可以认为原子被放置在一个醉汉走过的位置,这个醉汉摇摇晃晃地随机经过三维空间中的晶格,但是因为某些原因不能在同一个位置经过两次。没有不能重复经过同一个位置的这个要求,数学家们可以给出很好的解答,但是这个限制条件似乎将问题复杂化到了理论无法解决的地步。然而,哪怕一个不专业的计算机程序员也可以写出一个对这个复杂、曲折的链的合理的模拟,而且在100万、1000万,甚至10亿次重复之后,得到一个所需的精确答案。(回忆棣莫弗的工作,精确度与模拟次数的算数平方根成正比。)

假设你想要估计一片不规则形状叶片的面积。画一个包围了这片叶子的矩形框,然后模拟大量的随机分散到矩形内部的点的位置。你的估计就是用矩形区域的总面积乘以落在叶子边界内部的点的占比。

作为最后一个举例介绍的应用,假设保罗(Paul)想要建一个新的加油站。如果他安装4个加油泵,这是最小的可行的泵数,就会有至多8辆车的等待区;每个额外的泵减少2个等待区,所以如果他安装了最多的8个泵,就没有等待区了。为了计算多少个泵会让他的收益最大,他可以进行对安装了4、5、6、7或者8个泵的情况的模拟。

他应该知道潜在的顾客前来加油的比例和一辆车停在泵旁边加油的时间的分布,还有安装费用、运行费用与边际收益。他也应该考虑到如果没有加油泵空闲,或者队伍过长时,一个潜在的顾客直接开过去不来加油的概率。找到或者估计所有这些数字都是相对简单的,而且用计算机进行模拟会比在几个月中以不同的泵数进行实地试验便宜很多。因为他可以每一次都使用相同的随机数种子,他就可以在精确相同的情况下运行所有的模拟,对比不同的估计从而增加收益。

为什么叫“蒙特卡罗”呢?除了随机数和赌场游戏之间的明显的联系,这个名字其实原本用来指代军事领域对这些方法的应用,这其中就包括了早期的核弹的研制[1]。

电码中的错误

摩尔斯电码(Morsecode)告诉我们如何只用两种符号,比如说0和1来传输消息。但是其中一些符号也许会被损坏,以至于原本发出的0接收到的时候就变成了1,反之亦然。甚至在较低的错误率下,接收到的消息也会与发送的消息有天壤之别。我们如何应对这种情况?

假设每个传送的符号都有相互独立的较小概率被损坏。我们可以重复发送这些符号,但是稍微一想就会发现,发送00和11而不是0和1根本不能解决问题:如果01或者10到达,确认到底传输的是00还是11就全靠猜测。我们会猜对一半,但是重复发送符号意味着我们可以预见其中会产生两倍的错误,所以两种因素大部分相互抵消了。但是我们考虑一下传输000和111而不是0或者1。

采用“少数服从多数”的原则来进行解码,所有的{000,100,010,001}都被理解为0,其他4种可能的情况被理解为1。如果只有1%的发送的符号被损坏了,那么当000被发送出去,利用二项分布告诉我们有99。97%的概率上述的4种序列被接收到。这意味着错误率从1%降到了0。03%,降低了超过30倍。如果每个数字重复5次,我们可以得到更好的结果,但是消息变长会增大开支。最佳选择将会依赖内在的错误率和传输的速度。

羊膜穿刺术

准父母(同时也是统计学家)樊娟娟(JuanjuanFan)和理查德·莱文(RichardLevine)在考虑樊娟娟要不要接受羊膜穿刺术(amesis)——可以检测她的胎儿是否患有唐氏综合征[2](Down’sSyndrome)。他们的经历可以作为其他类似情况的模板。

基于樊娟娟的年龄和简单的血液检查,我们可以给出胎儿患有唐氏综合征的概率为180;超声图像检查的结果是令人满意的,借助贝叶斯公式计算后,得到的患病概率减小到了1120。羊膜穿刺术是一个侵入性的手术——一根中空的针刺入腹腔抽取羊水样本;如果作为唐氏综合征特征的21号染色体被检测出多余复制,就一定能够确诊,但是羊膜穿刺术这种检测有一定的风险导致流产,在这个情境中风险概率估计是1200。如果确诊胎儿为唐氏综合征后,父母们一定会选择流产。他们应该接受这个检测吗?

樊娟娟和莱文通过使期望效用最大化的逻辑分析过程得出他们的决定。可能出现的最坏结果是没有患唐氏综合征的胎儿流产,其效用赋值为0;最好的结果,是出生的胎儿不患有唐氏综合征,其效用赋值为单位1。不进行羊膜穿刺术,生下来患有唐氏综合征的孩子,赋值效用x;进行了检测,的确检测出了唐氏综合征的效用y应该大一些。(最后一个情况中检测导致的流产就无关紧要了,因为无论如何胎儿都会被流产。)

他们计算出了进行检测和不进行检测的期望效用。如果第一个值超过第二个,就应该进行检测,在这种情况下,就是要求y大于(119200)+x,粗略地要求y大于0。6+x。

如果樊娟娟和莱文认为确诊唐氏综合征之后进行流产的效用小于0。6,那么进行检测就会毫无意义。他们给生下尽管患有唐氏综合征的小孩的效用x赋值越高,那么y的阈值就会越高。如果这个效用x超过0。4,那么他们就一定不会接受检测。

选择x和y的合适的值需要一定的思考,而且如果基本的参数——接受检测的流产概率为1200,不接受检测生下唐氏综合征婴儿的概率1120——发生变换,最后计算得到的判断准则就会变化(参见附录)。简单地讲,如果胎儿患有唐氏综合征的概率小于意外流产的概率,接受检测就不合理了。真的是这样吗?

樊娟娟和莱文讨论了他们面临的难题,他们赞同的效用值的选择让他们决定接受检测。结果是美好的:没有多余的染色体,也没有发生流产。

血友病

完结热门小说推荐

最新标签