完本神战

完本神战>牛津通识课:概率 > 04 概率试验 Chance Experiments(第1页)

04 概率试验 Chance Experiments(第1页)

04概率试验ceExperiments

对于以概率作为结果的任意试验——买彩票、投注赛马、相亲、接受医学治疗,我们用分布这个词来详细说明其所有可能的结果,以及与它们相关的概率。我们讨论泊松分析——大量重复试验中多少稀有事件会发生——的时候提到过这个词。

“分布”是分析概率试验中结果变化范围的中心概念。坦率地说,我们需要知道可能的结果的范围。为了给出这些结果概率的合理数值,我们必须讲清楚我们的假设,并且期望它们对于我们想要考察的试验是合适的。

离散分布

首先,我们来看看那些可能的结果能够被写成一个列表的情况,每个结果都有它们自己的概率。术语离散分布(discretedistribution)适用于这种情况。

最简单的情况就是我们认为结果具有相同可能性时计算结果的数量。这里使用均匀分布(uniformdistribution)这个术语,因为总体的概率均匀地分散在各个结果上。许多试验都被认为满足均匀分布——轮盘赌、掷色子、扑克牌、选择彩票中的中奖号码等。精确的计数给出了合适的答案。

术语“伯努利试验”描述了一系列发生概率均为常数的独立试验。在伯努利试验次数固定的情况下,有一个简单的公式叫作二项分布(binomialdistribution),分别给出了事件发生恰好0、1、2……次的概率。这个公式只依赖于试验的次数和事件发生的概率。当你依次浏览这些结果的时候,它们的概率先是升高到一个最大值,然后逐渐降至0。泊松分布也遵循这个模式。

我们能计算20次掷色子中数字6出现次数的二项分布;或者一个学生对30道多选题中的5个选择随机作答的时候,蒙对个数的二项分布。但是我们不能预测一个桥牌选手的13张手牌里梅花张数的概率:虽然每一张单独的卡片都有14的概率是梅花,但是连续的牌不是独立的,因为下一张牌是梅花的概率会被所有前面的结果影响。

永远要留意(通常是小号字)附属细则。使用二项分布需要3个条件:固定试验次数,每个事件与其他事件相互独立,并且事件发生的概率是常数。

在一系列伯努利试验中,事件首次发生的时候经过了5轮试验的概率是多少?这种情况发生的唯一方式就是前4次试验中事件都未发生,随后1次试验中事件发生;因为所有的试验都是独立的,问题的答案就是将这些结果分别的概率乘在一起,给出了一个令人愉快的简介表达式,这就是所谓的几何分布(geometricdistribution)。

事件首次发生需要恰好1、2、3……次试验的概率稳定地下降。下一个概率值等于将现在的概率值乘以一次事件未发生的概率,一个小于单位1的固定值,每次都是这样。因此,无论事件发生的概率是多大,事件首次发生时经过的试验次数的最可能的值就是1。

假设在板球比赛中,连续的击球构成了伯努利试验。一位投球手,将事件发生理解为他投球成功,他可以乐观地想:他开始投球的时候,下一次投球成功最可能的就是这一次;相反,一个具有相同视角的击球手就得听天由命地接受他这一局最有可能的持续时间就是他面对这一个球的时间。(就算是最好的击球手,记录表明他们最有可能的总得分总是0!)

图4 一些常见的离散分布

图4举例说明了一些常见的离散分布。对于每一个可能的数值,竖线的高度给出了它的概率,并且这些高度的和总是单位1。

连续分布

我们如何拓展古典的概率观点来解决在一个长度为80cm的木棍上随机选取一个点的试验?可能的结果组成一个连续统(),而不只是一个列表。

“随机”意味着所有单独的点都具有相同的概率值。但如果这个相等的值超过了0,那么,在取了足够多的点之后,它们的总概率就会超过单位1,这是不可能的。每个单独的点的概率一定是0,我们也不能使用像图4一样的图片了。我们需要将概率、片段或者区间相关联,而不是将概率和单独的点相关联。

为了对80cm的木棍的每一部分一视同仁,所有具有相同长度的片段一定有相同的概率。想象一下将木棍砍成8个相等的片段:按照定义,一个“随机的”点落在每个片段上的概率一定相同,举例来说,落在20~30cm的片段上一定具有18的概率。

图5a展示了下一步操作,这可以用口头禅“面积表示概率”表述。标注了h的水平线的高度是设定好的,这条线下阴影部分的面积是单位1,这呈现了一个事实,我们可以百分百地确定随机点落在区间0~80cm中的某处。接着图5b展示了如何确定随机点落在32~52cm的片段上的概率,只需要计算对应的阴影面积即可。简单地说,这个概率是14。

要得出随机选择的点落在木棍两端10内的概率,我们就可以使用图5c,并且依据加法定理,要求的概率是三个阴影面积的和,也就是12。

图5a 阴影面积是单位1

图5b 落在32~52cm之间的概率是14

图5c 见正文

图6展示了对结果取连续值的另一些情况下相似的解决方式,例如一段特定的高速公路上下一次事故发生需要的时间。我们会在下面论证展示图片上的曲线在这种情况下是合理的,但核心观点是图线的尺度是特意选择好的,以至于标注了“时间”的直线以上,和以点E为起始端点的曲线以下的总面积是单位1,因为我们可以百分百确定我们考察的这段时间一定取非负值。

图6 连续分布

时间至少是B但不大于C的概率就是阴影的面积。我们可以用类似的方式得到考察的时间落在任意给定区间内的概率,还能像之前一样根据加法定理,得到落在更复杂区间内的概率。

一个能按照这种方式生成概率的曲线被称为概率密度(probabilitydensity)。已知面积的计算方式是“长乘以宽”,任何直线的宽度都是0。因此图6中在点A或者点D的竖直线的“面积”都是0,所以这两个单独的点具有0值的概率,就像之前提过的那样。但是点A的密度曲线比点D高,所以点A附近的值比点D附近的值更可能。简单地说,图片表明具有或高或低的概率的区域。在这里我们使用连续分布(uousdistribution)这个术语。

在所有这些试验中,因为单独一个点具有的概率值为0,我们可以稍微草率一点:无论一个区间包括了两个端点或一个端点,抑或都不包括,结果的概率都是一样的。

为了限定一个概率密度,一条曲线一定必须具有两个特性:不能取负值,在曲线下的全部面积必须是单位1。这些保证了对概率的所有计算能得出合理的结果。

许多概率密度函数出现得足够频繁以至于可以被赋予名称。对于从给定的一个区间内选取随机点,密度函数在这个区间内完全平直,就像图5中的一样:简单地说,所有相同长度的片段具有相同的概率。再一次,我们叫它均匀分布。

假设我们对一些特定事件在多长时间后发生感兴趣。例如,210Pb是一种铅的不稳定同位素,“它的半衰期是22年”这个断言被印在物理教材上。它的意思是,如果我们有一块这种物质,22年后只有原来的一半保持原样,其余的都通过辐射衰变成其他物质了。

这块物质由巨量的原子组成,所有这些原子的行为都是独立的。如果关注单个原子,它通过放出一个粒子而衰变。我们不知道什么时候这个过程会发生,但是因为在22年内这块物质中的一半的原子都衰变了,所以这个特定的原子在这个时间段内发生衰变的概率是50%。假设它在5年后还没有发生衰变:这时,它就是剩余的210Pb块中的一个原子,所以它在未来22年衰变的概率也是50%,并且如果它在接下来的3年中没有发生衰变,情况也一样,以此类推。

完结热门小说推荐

最新标签