数学家恋爱技巧 数学家的相亲模式

数学家恋爱技巧 数学家的相亲模式(1)

►相亲犯难?

编者按:

苏格拉底和柏拉图的爱情观被世人广为流传,但其中的哲学意味却总会让人有些摸不着头脑,毕竟,并不是每一位平凡的下里巴人都能欣赏哲学家们的阳春白雪……

此次,我们奉上一则相亲实用宝典,借“傻(数学)博士”相亲的故事告诉你,如何从概率与统计的角度去相亲!

嗯,首先你要找到100位相亲对象……

撰文 | 张天蓉 (美国德州大学奥斯汀分校理论物理博士)

责编 | 吕浩然

知识分子为更好的智趣生活 IDThe-Intellectual

●●●

苏格拉底和他的学生柏拉图都是古希腊著名的哲学家。

一天,柏拉图问苏格拉底:什么是爱情?苏格拉底让他到麦田走一趟,目标是要摘回一棵最大最好的麦穗,但只可以摘一次,并且不许回头,路径不能重复。柏拉图本以为很容易,但最后却空手而归,原因是他在途中虽然看到很不错的麦穗,却总希望后面有更好的,最终致使他错失所有的良机。苏格拉底告诉他:这就是爱情!

►图1:傻博士相亲的最佳策略

根据图1所示可以总结出傻博士“最佳策略”的基本思想:对开始的(r-1)个面试者,答复都是“不喜欢”,等于是“忽略”掉了这些佳丽;直到第r位佳丽开始,才认真考虑和比较,如果从r开始面试到第i个人的时候,觉得这是一个比前面的人都要更中意的,便答复说“喜欢”,从而停止这场相亲。

图1中还标出了一个“临时最佳者”,这和实际上隐藏着的排行榜中的“#1”可能是不同的。“临时最佳者”指的是傻博士一个一个相亲之后到达某个时刻所看到的最好的佳丽,是随着傻博士已经面试过的人数的增加而变化的。

被“忽略”的选项Ignore

这个“最佳策略”当中其实还有一个问题:对100位佳丽而言,到底前面应该“忽略”掉多少个人,才是最佳的呢?也就是说,对n个相亲对象而言,r应该等于多少,才能使得最终被选定的那位佳丽是“#1”的几率最大?

r太小了当然不好。如果令r=2,也就是只忽略第一个,如果第二个比第一个好的话,就定下了第二个,当然也可能继续下去,但很有可能使你的决定下得太快了,似乎还没有真正开始相亲,就草草结束了;r太大显然也不行。如果令r=99,则忽略的人数将会太多,“#1” 被忽略掉的可能性也非常大。结果是相了这么多人,傻博士累得半死,选中“#1”的几率只是大约2/100而已。

也许,应该忽略掉一半,从中点开始考察?也许,r应符合黄金分割原则:0.618?也许与另外某个知名的数学常数(π或e)有关?然而,这都是一些缺乏论据的主观猜测,傻博士是数学家,还是让数学来说话吧。

我们首先粗糙地考察一下,如果使用这种方法,对某个给定的r,应该如何估算最后选中“#1”的几率P(r)。

对于给定的r,忽略了前面的r-1位佳丽之后,从第r个到第n个佳丽都有被选中的可能性。因此,在图1下方的公式中,这个总概率P(r)被表示成所有的P(i)之和。其中,i是在r到n之间逐一变化的,而P(i)则是选中第i位佳丽的可能性(概率)乘以这个佳丽是“#1”的可能性。

选中第i位佳丽的可能性是多少?取决于第i位佳丽被选中的条件,即当且仅当第i位佳丽比前面i-1位都要更好,而且前面的人尚未被选中的情形下才会发生。也可以说,第i位佳丽被选中即表示当且仅当第i位佳丽比之前的“临时最佳者”更好,并且这个临时最佳者是在最开始被忽略的r-1位佳丽之中。因为如果这个临时最佳者是在从r到i之间的话,她面试后就应该被选中了,然后就停止了整个相亲过程,不会进行到第i位佳丽。

此外,第i位佳丽是“#1”的可能性又是多少?实际上,按照等概率原理,每位佳丽是“#1”的可能性是一样的,都是1/n。因此根据上面的分析,我们便得到了图1所示的选中“#1”的概率公式。

从公式可知,傻博士选中“#1”的概率是对“忽略点”r的函数。读者不妨试试在公式中代入不同的n及不同r的数值,可以得到相应情况下的Pn(r)。比如说,我们前面所举的当n=100时候的两种情形:P100(2)大约等于6/100;P100 (99)大约等于2/100。

应该“卡”住多少位佳丽?How many

下面问题就是要解决:r取什么数值,才能使得Pn (r)最大?如果我们按照图1的公式可以计算出当n=100时,不同r所对应的概率数值,比如令r分别为2、8、12、22……等等,将计算结果画在Pn (r)图上,如图2a所示。我们可以将这些离散点连接起来成为一条连续曲线,然后估计出最大值出现在哪一个r点。这是求得P(r)最大值的一种实验方法。

数学家恋爱技巧 数学家的相亲模式(2)

►图2:相亲问题中n=100时的概率曲线

然而,我们更感兴趣从理论上分析更为一般的问题,那就要用到微积分了。在普通微积分里,最基本的理论基础是“收敛”和“极限”的概念,所有其它的概念都是基于这两个基本概念的。对于随机过程的微积分,在数学家们建立了基于实分析和测度论的概率论体系之后,就可以像当初发展普通微积分那样先建立“收敛”和“极限”这两个概念。

与普通数学分析不同的是,现在我们打交道的是随机变量,比之前普通的变量要复杂得多,相应建立起来的“收敛”和“极限”的概念也要复杂得多。

在随机微积分中的积分变量是随机过程(比如说无规行走)。无规行走是针对时间的一个函数,但是却有一个特殊的性质:处处连续但处处不可导。正是这个特殊的性质使得随机微积分与普通微积分大不相同。

随机微积分一般都既牵涉到普通变量时间t,又牵涉到随机变量W(t)。所以,进行随机微积分时,如果碰到跟t有关的部分就用普通微积分的法则,而碰到跟W(t)有关的部分时就使用随机微积分的法则。

落实到傻博士相亲问题上,首先,我们需要想办法将Pn (r)变成r的连续函数,因为只有对连续函数,才能应用微积分。为了达到这个目的,我们分别用连续变量x=r/n、t=i/n来替代原来公式中的离散变量r和i。此外,最好使研究的问题与n无关。因此,我们考虑n比较大的情形。n趋近于无穷大时,1/n是无穷小量,可用微分量dt表示,而公式中的求和则用积分代替。如此一来,图1中P(r)的表达式对应于连续函数P(x):

数学家恋爱技巧 数学家的相亲模式(3)

►公式(1)

图2b显示的是连续函数P(x) = - x ln x的曲线,此处的log和ln都表示自然对数,即以欧拉常数e(约为0.5772)为基底的对数函数。图中可见,函数在位于x等于0.4左右的地方,有一个极大值。

从微积分学的角度看,极大值所在的点,是函数的导数为零的点,函数在这个点具有水平的切线。但是导数为零,不一定对应的都是函数的极大值,而是有三种不同的情况:极大、极小及驻点。用该点二阶导数的符号,可以区别这三种情形,见图3。

数学家恋爱技巧 数学家的相亲模式(4)

►图3:函数的极值处导数为零

所以,令公式(1)对x的导数为零,便能得到函数的极值点:x =1/e = 0.36。这个点概率函数P(x)的值也等于1/e,大约为0.36。

将上面的数值用于傻博士的相亲问题。当n=100的时候,得到r=36。也就是说,在傻博士的相亲过程中,他首先应忽略前面的35位佳丽。然后,从第36位佳丽开始,便要开始认真比较啦,只要看见第一个优于前面所有人的面试者,便选定她!利用这样的策略,傻博士选到“#1”的可能性是36%,大于三分之一。这个几率比起前面所举的几种情况的概率:1/100、6/100等要大的多。

换一种思路Two choices

相亲问题的策略还可以因不同情况有不同的修改。比如说,也许傻博士会换另一种思路考虑这个问题:为什么一定只考虑“#1”的概率呢?实际上,“#2”也不一定比“#1”差多少啊!于是,他便将他原来的方法进行了一点点修改。

他一开始的策略和原来一样,首先忽略掉r-1个应试者。然后从第r个应试者开始考察、比较、挑选,等候出现比之前应试者都好的“临时第一名”。不过,在第r个人之后,如果这个“临时第一名”久不露面的话,傻博士便设置了另外一个数字s,即从第s个应试者开始,既考虑“#1”,也考虑“#2”。

我们仍然可以使用与选择第一佳丽的策略时所用的类似的分析方法,首先推导出用此策略选出“#1”或“#2”的离散形式的概率P(r,s) [2]。这时候的概率是两个变量r和s的函数。然后,再利用之前的方法,将这个概率函数写成一个两个变量的连续函数。为此,我们假设从离散变量r、s到连续变量x、y的变换公式为:

数学家恋爱技巧 数学家的相亲模式(5)

►公式(2)

然后,考虑n趋近于无穷大的情形,可以得到相应的连续概率函数为:

数学家恋爱技巧 数学家的相亲模式(6)

►公式(3,上)与公式(4)

公式(3)是一个两个变量的函数,其函数随x和y的变化可用一个3维空间中的2维曲面表示,如图4所示。这个函数的极值可以令P(x,y)对x和y的偏导数为0,见公式(4)。解出上面的方程便能得到这种新策略下相亲问题的解:当x = 0.347,y = 0.667时,概率函数P(x,y)有极大值,等于0.574。

数学家恋爱技巧 数学家的相亲模式(7)

►图4:2维概率分布函数

将上面的数值应用到傻博士相亲的具体情况,即n=100时,可以得到r=35,s=67,以上的r和s是四舍五入的结果,因为它们必须是整数。因此,傻博士如果采取这种“选择#1或#2”的策略,他成功的几率大约是57%,比“仅选择#1”的成功的几率(36%)又高出了许多。

这个结果也充分体现了数学的威力!

参考文献:

[1] Freeman, P.R. (1983). "The secretary problem and its extensions: A review".[J], International Statistical Review / Revue Internationale de Statistique. 51 (2): 189–206.

[2] S. M. Gusein-Zade, “The problem of choice and the optimal stopping rule for a sequence of random trials”, [J], Teor. Veroyatnost. i Primenen., 11:3 (1966), 534–537

制版编辑:吕浩然丨

本页刊发内容未经书面许可禁止转载及使用

公众号、报刊等转载请联系授权

copyright@zhishifenzi.com

知识分子为更好的智趣生活 IDThe-Intellectual

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页