数学分析之两类欧拉积分(Gamma、Beta函数与积分)

数学分析之两类欧拉积分

在概率论、微积分等数学领域中,我们经常能见到Beta函数(分布)、Gamma函数这种十分奇特的函数形式,他们很难从直觉上理解形式、作用,但是在很多时候有发挥着基础性作用。这不禁让人们好奇人们是怎么发现这两个奇葩的存在。这就要提到一位传奇数学巨匠——欧拉,他一生数学贡献无数,在数学及许多分支中都可以见到很多以欧拉命名的常数、公式和定理,他的工作使得数学更接近于现代数学的形态。他不但为数学界作出贡献,更把数学推至几乎整个物理的领域。此外欧拉还涉及建筑学、弹道学、航海学等领域。法国大数学家拉普拉斯曾说过一句话——“读读欧拉,他是所有人的老师。”两类欧拉积分,无疑也为其光辉的数学生涯又增加了浓墨重彩的一笔。两类欧拉积分的具体形式如下:

第一类欧拉积分(Beta函数): \[ \Beta(x,y)=\int_0^1 t^{x-1}(1-t)^{y-1}\mathrm{d}t=\frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)}\tag{1} \]

第二类欧拉积分(Gamma函数): \[ \Gamma(x)=\int_0^\infty t^{x-1}e^{-t}\mathrm{d}t\tag{2} \]

那么如此不直观的两个积分是如何被引入数学领域并在很多方向的起到奠基作用呢?这就用从哥德巴赫对插值与阶乘的研究说起。

哥德巴赫的疑问——插值与阶乘研究

克里斯蒂安·哥德巴赫(1690-1764)是活跃于17-18世纪的普鲁士(现德国)数学家,现在稍微对数学有些了解的人肯定会听过著名的“哥德巴赫猜想”,这个猜想描述起来十分简单:

任一大于2的偶数,都可表示成两个素数之和。

但是,却是数论中存在最久的未解问题之一。哥德巴赫就是有这种能在简单事物中寻到复杂原理的直觉。两类欧拉积分函数的诞生,也同样来源于他对一个简单插值问题的研究。

十七世纪的欧洲已经对科学实验与观测有了较为健全的认识,尤其是天文、海航领域,大量的观测与测量积累了丰富的相关数据,比如天文学上形体位置数据。由于每次观测都只获得一个结果,因此这些数据基本都是离散的数据。直观上来看,浩如烟海且庞杂多样的离散数据点令人头晕眼花,为了能提取出这些大量数据之中的精髓,总结数据的规律,数学家寄希望于用一个相对简单的数学公式来替代大量的观测数据插值法的研究就此火热起来。内插,或称插值(英语:Interpolation),是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(曲线)。举个简单的例子:

对于离散序列\(\{(1,1),(2,q^1),(3,q^2),\dotsb,(k,q^{k-1}),\dotsb\},q\neq 1\)的前\(n\)项之和,是否可以找出一条平滑的曲线穿过序列前\(n\)项的和?即 \[f(n)=\sum_{i=1}^{n} a(i),\] 找出一条过所有\((n,f(n))\)点且尽量简单的平滑曲线。

学过高中数学的读者很快就能发现,这个例子就是找的等比数列求和公式,画成图像是(\(q=1.1\)):

插值等比序列

插值等比序列

当我们用将这些点用一条平滑的曲线连接起来之后,不禁会思考,可以不可以用一个简单的表达式(函数)来表示这条曲线呢?这也是插值研究的一个重要问题。对于上面这个例子,根据中学数学知识,我们不难给出这样一条非常符合要求的曲线,其函数表达式为: \[ f(x)=\frac{1-q^x}{1-q}(q=1.1)\tag{3} \]

显然所有离散点都在这条曲线上,并且得到这个十分简单的函数表达式意味着我们不用再记那些离散的点,即使序列有无限长也无所谓,只需要计算函数表达式就可以根据任意给出的\(n\)得到相应的结果\(f(n)\)

这里必须要指出,是不是我们只能使用这一条曲线穿过所有的点呢?当时不是。我们可以信手画很多种曲线,都穿过图中那些离散的点,但是为什么大家选择了图中那条曲线呢?一是因为在哥德巴赫和欧拉所处的时代,函数这一词不仅仅意味着定义域到值域的抽象映射,更需要有一个能写出来的解析表达式。如果无法写出来一个明确的表达式,这个函数通常是不会被考虑的。二是因为这条曲线要足够的“自然”,这意味这条曲线需要一定合理的意义。当然即使满足了以上两点,函数曲线也并不是唯一的,大多数时候我们只是采用了那条最符合我们直观想法的函数曲线。

此外,找到的这个函数还有一个非常重要的特点:连续性:即使在非正整数的点,例如-1,0.4736,1.1,\(\sqrt{2}\),100.12345,函数都是有值的。这意味着我们将表达式可用的范围(定义域)从正整数解析延拓到了整个实数域(除了\(q\neq 1\))。

解析延拓(英语:Analytic continuation)是数学上将解析函数从较小定义域拓展到更大定义域的方法,延拓的基本原则是延拓后的函数在原来的区域上和原函数等值。

对离散数据的插值和延拓得到的解析表达式提升了问题处理的泛用性,算是提取了大量数据中的精髓。说句题外话,现在火热的神经网络监督学习方法本质上也是通过离散数据(训练数据)拟合和延拓最贴近现实的函数。

哥德巴赫在处理一系列插值与延拓问题时,遇到了一个看似很简单,处理起来却很棘手的问题,即阶乘的插值。

在一系列数列中,阶乘的表达方式并不复杂甚至说非常简单: \[ 1,1\times 2,1\times 2\times 3,\dotsb,1\times 2\times\dotsb\times n,\dotsb \] 哥德巴赫知道连加求和的通项公式非常好找,因此他希望找到一个优雅简洁的通项公式,即能准确地描述阶乘\(n!\),又能够像求和公式\(\frac{n(n+1)}{2}\)那样可以推广到实数域。经过多次尝试,哥德巴赫并没有在这个问题上取得太大进展,因此,他决定向当时他所认识的多位著名数学家求助。

三封信中诞生的Gamma函数

第一封:丹尼尔-伯努利的解答

1722年他找尼古拉斯-伯努利请教这个阶乘插值问题,不过没有取得任何进展。即便如此,哥德巴赫却多年来一直不忘思考这个问题,1729 年他又请教尼古拉斯-伯努利的弟弟丹尼尔-伯努利,正好当时丹尼尔-伯努利对无穷级数有着很深入的了解,他从中获取灵感,于当年 10 月给哥德巴赫的一封回信中以无穷级数的形式给出了漂亮的解答。 \[ x!=\lim_{A\rightarrow\infty}(A+1+\frac{x}{2})^{x-1} \prod_{i=1}^A \frac{i+1}{i+x}\tag{4} \] 这个插值公式的效果随\(A\)的增大而收敛,我们给出了一些\(A\)值下的结果图: bernoulli_interpolation

丹尼尔-伯努利通过无穷级数首先给出了一个阶乘解析表达式,虽然看上去很不好用,但是收敛速度还是挺快的,并且给接下来欧拉的研究提供灵感。

第二封:欧拉的无穷级数型解答

当哥德巴赫向丹尼尔-伯努利写信咨询时,他正在圣彼得堡担任科学院成员,而他此时身边有一位好朋友叫莱昂纳德-欧拉,对这个找阶乘函数的问题也表现出了兴趣。同样,借助于无穷这个强大工具,他在论文《De termino generali serium hypergeometricarum》中给出了自己的思路。

Tips: 无穷的运算法则:

  • \(\infty\plusmn a=\infty,\forall a\in R\)
  • \(-\infty\plusmn a=-\infty,\forall a\in R\)
  • \(\infty\times a=\infty,\forall a>0\)
  • \(\infty\times -a=-\infty,\forall a>0\)

对于一个无穷大数\(n\rightarrow\infty\),任一有限数字\(x\),有 \[ (n+x)!=n!\times (n+1)\times(n+2)\times\dotsb\times(n+x)\tag{5} \] 显然,一般理解下式\((5)\)只有当\(x\)为正整数时才合理。为了方便讨论,欧拉假设已经找到了一个适用于整个正实数域的阶乘插值函数(负数和复数以后再讨论),不妨令其为\(\Delta(x),x\in R^+\),即式(5)为: \[ \Delta(n+x)=\Delta(n)\times(n+1)\times(n+2)\times\dotsb\times(n+x)\tag{5.1} \]\(x\)为正整数,则\(\Delta(x)=x!\)。而根据无穷大的计算法则,当\(n\rightarrow \infty\)\[ n+1=n\quad n+2=n\quad \dotsb \quad n+x=n \] 因此,式\((5.1)\)可以写成 \[ \Delta(n+x)=\Delta(n)\times n^x\tag{6} \] 此时,欧拉再利用无穷大的性质,当\(n\rightarrow \infty\)时,\(n+\alpha=n\)\(\alpha\)是任一有限数。欧拉再将式\((6)\)中的\(n^x\)代换为\((n+\alpha)^x\),即 \[ \Delta(n+x)=\Delta(n)\times (n+\alpha)^x\tag{7} \] 若取\(\alpha=1\),则\((7)\)可写成: \[ \Delta(x+n)=\Delta(n)\times (n+1)^x, n\rightarrow\infty\\ \Rightarrow \lim_{n\rightarrow\infty}\frac{\Delta(n)\times(n+1)^x}{\Delta(n+x)}=1\tag{8} \] 最终,两边同时乘以\(x\)的阶乘函数\(\Delta(x)\),则有: \[ \Delta(x)=\lim_{n\rightarrow\infty}\frac{\Delta(n)\times(n+1)^x}{\Delta(n+x)}\times\Delta(x)\\ =\lim_{n\rightarrow\infty}\frac{1\cdot 2\cdot\dotsb \cdot n\times(n+1)^x}{(x+1)(x+2)\dotsb(x+n)},x\in R^+\tag{9} \] 上式(9)就是欧拉得到的无穷乘积形式的阶乘函数。从欧拉给出的思路来看,他真是将无穷的性质玩出花来了,当\(n\)取值远大于\(x\)时,这些式子的精度都很高。反复利用无穷性质的缺点是欧拉所给出的无穷乘积(式(9))表达式的收敛速度,并没有丹尼尔伯努利给出的无穷乘积表达式(式(4))收敛速度快。同时,丹尼尔-伯努利和欧拉二者给出的不同结果也告诉我们:满足整数点阶乘计算结果的插值阶乘函数并不唯一

无穷乘积中欧拉的发现

我们发现无论是式(4)还是式(9),\(x\)的取值都可以是任意正实数,并非一定要是整数,不过欧拉的无穷乘积表达式却是一只会下金蛋的鸡。欧拉作为20岁前就熟读伐里农、牛顿、笛卡尔、伽利略、雅各布-伯努利、约翰-伯努利、泰勒、沃利斯著作的学神,发现自己的无穷乘积表达式(是(9))和英国数学家沃利斯发现的沃利斯乘积具有相似性。沃里斯乘积: \[ \prod_{n=1}^{\infty}{\frac{2n}{2n-1}}\cdot {\frac{2n}{2n+1}}={\frac{2}{1}}\cdot {\frac {2}{3}}\cdot {\frac {4}{3}}\cdot {\frac {4}{5}}\cdot {\frac {6}{5}}\cdot {\frac {6}{7}}\cdot {\frac {8}{7}}\cdot {\frac {8}{9}}\cdots ={\frac {\pi }{2}}\tag{10} \] 而自己的无穷乘积表达式在\(x=\frac{1}{2}\)的时候,有: \[ \begin{aligned} &\lim_{n\rightarrow\infty}\frac{1\cdot 2\cdot\dotsb \cdot n\times(n+1)^x}{(x+1)(x+2)\dotsb(x+n)}\bigg|_{x=\frac{1}{2}}\\ &=\lim_{n\rightarrow\infty}(n+1)^{\frac{1}{2}}\frac{1}{\frac{1}{2}+1}\cdot\frac{2}{\frac{1}{2}+2}\cdot\frac{3}{\frac{1}{2}+3}\cdot\dotsb\frac{n}{\frac{1}{2}+n}\\ &=\lim_{n\rightarrow\infty}\sqrt{n+1}\cdot \frac{2}{3}\cdot \frac{4}{5}\cdot \frac{6}{7}\dotsb \cdot \frac{2n}{2n+1}\\ &=\lim_{n\rightarrow\infty}\sqrt{n+1}\cdot \sqrt{(\frac{2}{3}\cdot \frac{4}{5}\cdot \frac{6}{7}\dotsb \cdot \frac{2n}{2n+1})\cdot (\frac{2}{3}\cdot \frac{4}{5}\cdot \frac{6}{7}\dotsb \cdot \frac{2n}{2n+1})}\\ &=\lim_{n\rightarrow\infty}\sqrt{n+1}\cdot \sqrt{\frac{2\cdot 2 \cdot 4 \cdot 4\cdot 6\cdot 6\dotsb 2n \cdot 2n}{3\cdot 3 \cdot 5 \cdot 5 \cdot 7 \dotsb \cdot(2n+1)\cdot(2n+1)}}\\ &=\lim_{n\rightarrow\infty}\sqrt{\frac{n+1}{2n+1}}\cdot \sqrt{\underbrace{\prod_{i=1}^{n}{\frac{2i}{2i-1}}\cdot {\frac{2i}{2i+1}}}_{沃利斯乘积=\frac{\pi}{2}}}\tag{11} \end{aligned} \] 欧拉惊奇地发现,后面那一项正是沃里斯公式(式(10))的表达式,由此,我们可以将上式简写成: \[ \Delta(\frac{1}{2})=\frac{1}{2}!=\lim_{n\rightarrow\infty}\sqrt{\frac{n+1}{2n+1}}\cdot \sqrt{\prod_{i=1}^{n}{\frac{2i}{2i-1}}\cdot {\frac{2i}{2i+1}}}\\ =\sqrt{\frac{1}{2}}\sqrt{\frac{\pi}{2}}=\frac{\sqrt{\pi}}{2}\tag{12} \] 出乎意料,在阶乘的函数表达式中出现了\(\pi\)。此时,欧拉意识到这个阶乘表达式可能与圆或者求面积有着密切联系,而求面积是积分的本职工作。此外,沃利斯也是在研究曲线下方面积(用现在角度看就是积分)时得到的沃利斯乘积,因此欧拉闪过灵感,能否用积分的形式来替代无穷乘积形式表示阶乘函数呢

第三封:欧拉的积分函数型解答

参考了前辈沃利斯、牛顿和斯特林的积分研究成果,欧拉选取了以下积分形式: \[ J(e,n)=\int_0^1 x^e(1-x)^n\mathrm{d}x\tag{13} \] 其中\(e\)是任意数,\(n\)是整数。这个式子细看其实已经是第一类欧拉积分的原型了,后来勒让德修改了式(13)的形式,得到式(1),Beta函数。 \[ B(x,y)=\int_0^1 t^{x-1}(1-t)^{y-1}\mathrm{d}t\tag{1} \] 相较于第二类欧拉积分,它出现的更早,并且由式(13)推导出了第二类欧拉积分(式(2)),因此我们反而把更复杂一些的式(13)的形式定义为“第一类”欧拉积 分。

我们通过分部积分法来处理式(13): \[ \begin{aligned} J(e,n)&=\frac{1}{e+1}x^{e+1}(1-x)^n\bigg |_0^1-\int_0^1 \frac{-n}{e+1}x^{e+1}(1-x)^{n-1}\mathrm{d}x\\ &=0+\frac{n}{e+1}\int_0^1 x^{e+1}(1-x)^{n-1}\mathrm{d}x\\ &=\frac{n}{e+1}J(e+1,n-1) \end{aligned}\tag{14} \] 每用一次分部积分,\(e\)加一,\(n\)减一。这样我们递归地使用分部积分法可得: \[\begin{aligned} J(e,n)&=\frac{n}{e+1}J(e+1,n-1)\\ &=\frac{n(n-1)}{(e+1)(e+2)}J(e+2,n-2)\\ &\qquad\qquad\vdots\\ &=\frac{n(n-1)\dotsb 2\cdot 1}{(e+1)(e+2)\dotsb(e+n)}J(e+n,0)\\ &=\frac{n(n-1)\dotsb 2\cdot 1}{(e+1)(e+2)\dotsb(e+n)}\int_0^1 x^{e+n}(1-x)^0\mathrm{d}x\\ &=\frac{n!}{(e+1)(e+2)\dotsb(e+n)(e+n+1)} \end{aligned}\tag{15} \]\[ \int_0^1 x^{e}(1-x)^n\mathrm{d}x=\frac{n!}{(e+1)(e+2)\dotsb(e+n)(e+n+1)}\tag{15.1} \] 欧拉经过分部积分,已经将阶乘\(n!\)与积分\(\int_0^1 x^{e}(1-x)^n\mathrm{d}x\)联系了起来,此时如果能将分母中\((e+1)(e+2)\dotsb(e+n)(e+n+1)\)\(n\)的相关内容分离出来,就能够得到\(n!\)的积分表达式了!

欧拉使用了一个处理技巧,令\(e=\frac{f}{g}\),代入得: \[ \int_0^1 x^{\frac{f}{g}}(1-x)^n\mathrm{d}x=\frac{n!}{(\frac{f}{g}+1)(\frac{f}{g}+2)\dotsb(\frac{f}{g}+n)(\frac{f}{g} +n+1)}\\ =\frac{n!\cdot g^{n+1}}{(f+g)(f+2g)\dotsb(f+ng)(f+(n+1)g)}\tag{16} \] 将等式右侧的\(g^{n+1}\)转移到另一侧,可得 \[ \frac{\int_0^1 x^{\frac{f}{g}}(1-x)^n\mathrm{d}x}{g^{n+1}}=\frac{n!}{(f+g)(f+2g)\dotsb(f+ng)(f+(n+1)g)}\tag{16.1} \] 如果我们取\(f=1,g\rightarrow 0\),那么等式右侧(RHS)在取极限时就会只剩下\(n!\),而等式左侧(LHS)则是一个奇怪的结构: \[ \lim_{g\rightarrow 0},_{f=1}\frac{\int_0^1 x^{\frac{f}{g}}(1-x)^n\mathrm{d}x}{g^{n+1}}=\frac{\int_0^1 x^{\frac{1}{0}}(1-x)^n\mathrm{d}x}{0^{n+1}}\tag{17} \] 为了处理这个结构,欧拉对积分变量做了一个代换,令\(y=x^{\frac{f+g}{g}}\)\(y\)的积分域显然也是\([0,1]\),则\(x=y^{\frac{g}{f+g}}\),那么式(16.1)左侧可改写成: \[ \begin{aligned} (16.1)LHS&=\frac{\int_0^1 (y^{\frac{g}{f+g}})^{f/g}(1-y^{\frac{g}{f+g}})^n\mathrm{d}(y^{\frac{g}{f+g}})}{g^{n+1}}\\ &=\frac{\int_0^1 y^{\frac{f}{f+g}}(1-y^{\frac{g}{f+g}})^n (\frac{g}{f+g}y^{\frac{-f}{f+g}})\mathrm{d}y}{g^{n+1}}\\ &=\frac{\int_0^1 (1-y^{\frac{g}{f+g}})^n \mathrm{d}y}{g^{n}(f+g)}\\ &=\frac{1}{(f+g)^{n+1}}\int_0^1(\frac{1-y^{\frac{g}{f+g}}}{\frac{g}{f+g}})^n\mathrm{d}y \end{aligned}\tag{18} \] 此时,我们再看式(18)的结果,其关键结构就是\(\frac{1-y^{\frac{g}{f+g}}}{\frac{g}{f+g}}\),为了方便我们令\(z=\frac{g}{f+g}\),当取\(f=1,g\rightarrow 0\)时,显然有\(z\rightarrow 0\),即 \[ \lim_{z\rightarrow 0}\frac{1-y^z}{z}\xlongequal{洛必达法则}\frac{-y^z\ln y}{1}\\ =-\ln y\tag{19} \] 将式(19)的结果代入式(18),并联立式(16)可得: \[ \int_0^1 (-\ln y)^n\mathrm{d}y=n!\tag{20} \] 为了追寻最后结果好看,也可以把\(y\)写成\(x\),但是本文为了标识清晰,就保留\(y\)来表示。式(20)就是欧拉在原式论文中给出的结果,不过和式(2)给出的第二类欧拉积分似乎还有点不同。其实式(2)和(20)式等价的,我们只要令\(y=e^{-t}\),那么便有: \[ n!=\int_0^1 (-\ln e^{-t})^n\mathrm{d}e^{-t}=\int_0^\infty t^n e^{-t}\mathrm{d}t\tag{21} \] 显然,其结果就是第二类欧拉积分,又称为\(\Gamma\)函数。其在正实数范围内的图像如下图:

gamma-function-posotive-real

gamma-function-posotive-real

需要注意的是,上式的函数和真正的\(\Gamma\)函数有一位偏移。做出这个偏移决定的也是欧拉,这也使得\(\Gamma(x)=(x-1)!\)而非\(x!\)

哥德巴赫和欧拉在关于阶乘函数的通信中诞生了两类欧拉积分即Beta函数和Gamma函数,此时是1730年,欧拉只有23岁。从此数学家对他们的探索就从未停止过,并且得出了许多改变数学历史的结论。我们将这些细节在下一章中说明。

欧拉积分的进一步探究

Beta和Gamma函数的命名

当欧拉在给哥德巴赫的回信中第一次给出两类积分的时候,显然不会像后世有“后验”经验的数学家那样意识到这两个积分函数的将会带来多大的数学财富。由于欧拉在当时已经是名满欧洲的大数学家,并且涉猎的领域宽广,因此很多其他方面的问题让欧拉并不能专心深入研究两类积分。

不过,当时很多著名的数学家都和欧拉有着密切的联系,比如法国18世纪末的三个著名数学家,即称为“法国3L”的拉格朗日(Lagrange)、拉普拉斯(Laplace)和勒让德(Legendre)。他们三人都是欧拉的后辈,且深受欧拉的影响,拉格朗日是欧拉的学生,拉普拉斯则是拉格朗日的同事,文章开头那句“读读欧拉,他是所有人的老师。”就是拉普拉斯说的。而勒让德是被拉格朗日发觉的数学家,其关于椭圆曲线和数论的研究很大程度上基于欧拉的研究,并且是欧拉时代到高斯时代的重要过渡者(虽然被夹在两个巨匠之间掩盖了勒让德本身的光芒,尤其是高斯-

勒让德花了许多时间研究欧拉相关的积分,并发表了几篇文章,在1792年的文章《Mémoires sur les transcendantes elliptiques》(关于超越椭圆函数的备忘录)中首次将式(1)的形式命名为第一类欧拉积分。在1809年的《Recherches sur diverses sortes d'intégrales définies》(各类定积分的研究)中,勒让德正式地命名和引入了第一类欧拉积分(式(1))和第二类欧拉积分(式(2)),并引入了符号\(\Gamma\)来表示第二类欧拉积分,即 \[ \Gamma(x)=\int_0^\infty t^{x-1}e^{-t}\mathrm{d}t \tag{2.1} \] 至于为什么勒让德只给第二类欧拉积分找了个代表符号容易理解,因为第二类欧拉积分正好是欧拉找到的表示阶乘的连续函数,得到了更多重视,而第一类欧拉积分则是在推导过程中的一个辅助积分。而勒让德选择符号\(\Gamma\)的原因,Julio González Cabillón猜测因为一是符号\(\Gamma\)是勒让德(LeGendre)中“L”倒过来写,二是“Gamma”中的“G”代表自己名字中的“Gendre”。

不过,随着研究的深入,直到1839年Jacques P. M. Binet才引入了符号\(\Beta\)(Beta )表示第一类欧拉积分,他选用\(\Beta\)的原因也很简单,一是因为他名字中有字母“B”,二是第二类欧拉积分是由第一类欧拉积分推导出来的,理应使用希腊字母表中“\(\Gamma\)”的前一位字母“\(\Beta\)”。

积分函数的偏移

如果仔细看欧拉得出的结果式(21)然后对比勒让德定义的\(\Gamma\)函数的表达式(2.1) \[ n!=\int_0^\infty t^n e^{-t}\mathrm{d}t=\Gamma(n+1)\tag{22} \] 可以发现,欧拉的得出表达式严格来说并不是现在使用的第二类欧拉积分的表达式,他们之间有一位偏移,即\(\Gamma(n)\neq n!\)而是等于\((n-1)!\)。其实,如果我们将式(21)的形式定义成\(\Gamma\)函数也不是不可以,事实上欧拉最初研究这个问题就用的式(21)的结果,此外欧拉的后辈数学王子高斯在研究这个积分也使用的如下形式: \[ \Pi(x)=\int_0^\infty t^x e^{-t}\mathrm{d}t\tag{23} \] 当时主推式(2)定义的人是勒让德,即上文定义的式(2.1) \[ \Gamma(x)=\int_0^\infty t^{x-1}e^{-t}\mathrm{d}t \tag{2.1} \] 相应地,第一类欧拉积分在勒让德定义时也区别与刚被引入时的原始形式,也做了一位偏移,即 \[ \int_0^1 t^x(1-t)^y\mathrm{d}t\rightarrow\int_0^1 t^{x-1}(1-t)^{y-1}\mathrm{d}t\tag{24} \] 从后世的角度来看,显然勒让德偏移一位的定义方式更被人普遍接受。实际上,勒让德在研究时发现,在1768年欧拉的著作《Institutiones calculi integralis》中,欧拉引入第一类积分时已经对积分参数做了-1的修改。欧拉在《Institutiones calculi integralis》中研究的积分形式如下: \[ \int_0^1 \frac{x^{p-1}}{\sqrt[n]{1-x^n}^{n-q}}\mathrm{d}x\tag{25} \]\(n=1\)时,式(25)即为第一类欧拉积分(Beta函数)。勒让德依照欧拉的方式,同样对第二类欧拉积分做出了-1的偏移,可以说欧拉的研究影响了勒让德,让其决定采用了-1位的偏移。

至于为什么要最终采用-1位偏移的定义,且更广为接受呢?一个可能的原因是Beta函数与Gamma函数关系。按照勒让德的定义方式(式(2.1)),那么两个函数之间的关系可以简洁地写成: \[ \Beta(x,y)=\frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)}\tag{26} \] 式(26)简洁、对称,优雅,很符合数学家们的审美。如果按照不偏移的定义,即高斯的定义(式(23)),那么他们之间的关系则是 \[ \Beta'(x,y)=\frac{\Pi(x)\pi(y)}{\Pi(x+y+1)}\tag{27} \] 分母那个多余的1,不仅仅会破坏对称美感,而且在计算种种带来额外项。

另一个可能的猜测则与抽象代数有关,按照勒让德的定义式(2.1),\(\Gamma\)分布的概率密度函数和卷积可以组成一个半环,而不做偏移的定义形式则没有这个性质。虽然有关群论的内容需要等待欧拉死后大约半个世纪的阿贝尔和伽罗华才初步建立,但是欧拉未出版的一些手稿中已经体现了群论的初步思想。至于欧拉是否也发现式(2.1)的形式在群论计算中的便利性,我们就无从得知了。不过,正因为群论的发展,使得式(2.1)的定义方式更广泛地被接受。

第二类欧拉积分的负数、复数延拓以及统一表达式

在欧拉进行阶乘延拓的时候,他考虑的是正实数场景,当\(x\in R^+\)时,第二类欧拉积分,即\(\Gamma(x)\)函数是有定义且连续的,具体证明可参考网页资料数学分析-学习笔记-Γ函数和B函数.html。正如从整数向正实数的解析延拓促使了\(\Gamma\)函数的诞生,在此之后,数学家们开始希望将阶乘的概念拓展到负数与复数。

对于负数而言,虽说式(2)的形式并不适用,但是阶乘的思想还是能够借鉴的,关键就是递推公式: \[ \Gamma(x+1)=x\Gamma(x)\tag{28} \] 那么如果我们不停地给自变量\(x\)减1,那么\(x\)很快就会落入负数的范围,比如: \[ \begin{aligned} &{1\over 2}!=\Gamma({3\over 2})=({1\over 2})\times \Gamma({3\over 2}-1)=({1\over 2})\times \Gamma({1\over 2})\\ &{1\over 2}!=({1\over 2})\times(-{1\over 2})\times \Gamma({1\over 2}-1)=({1\over 2})\times (-{1\over 2})\times \Gamma(-{1\over 2})\\ &{1\over 2}!=({1\over 2})\times(-{1\over 2})\times(-{3\over 2})\times \Gamma(-{1\over 2}-1)\\ &\qquad=({1\over 2})\times(-{1\over 2})\times (-{3\over 2})\times \Gamma(-{3\over 2})=(-{5\over 2})!\\ \end{aligned}\tag{29} \] 我们将递推关系反转过来,我们能够很轻易地得到阶乘的负数延拓,比如: \[ (-{5\over 2})!=\Gamma(-{3\over 2})=({2\over 1})\times (-{2\over 1})\times (-{2\over 3})\times \underbrace{\Gamma({3\over 2})}_{=\frac{1}{2}!=\frac{\sqrt{\pi}}{2}}=\frac{4\sqrt{\pi}}{3}\tag{30} \] 依据递推关系,我们只要计算出\(\Gamma\)函数在0-1范围内的值,就可以推得几乎所有负数\(\Gamma\)函数的值。注意,我这里使用的是“几乎”所有。这是因为使用递推关系有一个巨大的问题,即无法处理负整数的情形。比如-2的阶乘通过递推关系应该是: \[ \Gamma(-1)=(-2)! \\ \Gamma(-1)\times (-1) \times 0 \times 1 = 1! =\Gamma(2)\tag{31} \] 但是这个连乘式子中有一个\(\times 0\),结果理应是0,而不是\(1!\),相应地,\(\Gamma\)函数在所有负整数的延拓都没有良好的定义,负整数是函数的极点。延拓到负数部分的\(\Gamma\)函数如下图:

Gamma-function-real.svg

Gamma-function-real.svg

相比于负数的延拓,复数的延拓要容易的多,因为\(\Gamma\)函数在自变量是“兼容”复数的,对于实数部分为正的复数\(z,Re(z)>0\),我们甚至不必修改欧拉给出的式子原型。对于实数部分为负的复数\(z,Re(z)>0\),只要实部不是负整数,也可以通过递推关系式得到。而实部为负整数的点,就是函数在复平面的极点。

TIPS:全纯函数(英语:Holomorphic function)是复分析研究的中心对象;它们是定义在复平面\(\mathbb {C}\)的开子集上的,在复平面\(\mathbb {C}\)中取值的,在每点上皆复可微的函数(处处解析)。

在复变函数中,亚纯函数(meromorphic function)是在区域\(D\)上有定义,且除去极点之外处处解析的函数。具体来说就是在复分析中,一个复平面的开子集\(D\)上的亚纯函数是一个在\(D\)上除一个或若干个孤立点集合之外的区域全纯的函数,那些孤立点称为该函数的极点。

显然\(\Gamma(x)\)函数由于在负整数为极点,其他位置处处解析,因此它是亚纯函数,而\(\Gamma(x)\)函数的倒数\(\frac{1}{\Gamma(x)}\)却是处处解析的全纯函数(\(\frac{1}{\Gamma(x)}\)实部为负整数的点函数值都为0),因此在处理\(\Gamma(x)\)函数,很多数学家会从\(\frac{1}{\Gamma(x)}\)着手。

在整个复平面,\(\Gamma\)函数的绝对值图像如下(注:那些顶端平的部分是为了方便显示,函数值截断的结果)

Gamma_abs_3D

Gamma_abs_3D

数学家F.W. Newman在1848年给了\(\Gamma\)函数在整个复平面一个通用的表达式(32),利用了\(1/\Gamma(z)\)是全纯函数的特性。 \[ 1/\Gamma(z)=ze^{\gamma z}\prod_{k=1}^{\infty}[(1+\frac{z}{k})e^{-\frac{z}{k}}],\qquad \gamma=0.5772156649\dotsb\tag{32} \] 其中,\(\gamma\)为欧拉-马斯刻若尼常数,简称欧拉常数\(\gamma = \lim\limits_{n \rightarrow \infty }[( \sum_{k=1}^n \frac{1}{k} - \ln(n)]\)

第二类欧拉积分与阶乘延拓的唯一性

阶乘的解析延拓是唯一的吗?答案是显然的:No。我们回到开头插值的问题,最开始介绍哥德巴赫的疑问——插值与阶乘研究的时候就提到如果单纯地找插值函数,数学家们可以找出无数条符合要求的曲线。在丹尼尔-伯努利和欧拉分别写信告诉哥德巴赫他们的无穷乘积结果时,给出的也是两个不同的无穷乘积形式,并且都能够很好地做为阶乘的插值函数。

后来的数学家也解析延拓出了其他的阶乘函数,比如在1894年,法国数学家Hadamard利用\(\Gamma\)函数给出了一个在整个复平面内都解析的全纯函数: \[ y=\frac{1}{\Gamma(1-x)}\frac{\mathrm{d}}{\mathrm{d}x}\log\left[\Gamma(\frac{1-x}{2})/\Gamma(1-\frac{x}{2})\right],x\in \mathbb{C}\tag{33} \] 其函数图像如下:

hadamard阶乘函数.png

hadamard阶乘函数.png

相较于\(\Gamma(x)\),式(33)在整个复平面内没有奇异性,即使在负整数处也没有极点,从函数分析理论角度来看,它是一个更适合分析的函数。

那么,为什么只有第二类欧拉积分,即\(\Gamma(x)\)函数得到了数学家们的广泛认可呢?

从研究积分的角度看,这是显然的。因为欧拉积分在特殊函数中出现的频率非常高,第二类欧拉积分可以说是很多特殊积分的基础。而从插值的角度看,\(\Gamma\)函数的特殊性并不那么显然,虽然可以从美学上说,\(\Gamma\)函数简洁而优雅,但是数学要求我们找出更理性的证据。

既然阶乘插值的结果千千万,那我们来考虑阶乘函数除插值外,还应当满足哪些必要的要求。首先,阶乘的核心是递推关系\(n!=n(n-1)!\),我们先要把递推关系延拓到所有正实数\(f(x+1)=xf(x),x\in R^+\)(注意我们这里仿照勒让德的定义方式做了一位偏移),这使得将阶乘的概念从正整数延拓到正实数。同时我们规定阶乘函数的起点值\(f(x)|_{x=1}=1\),这二者共同保证了在所有正整数点的函数值与整数的阶乘值一致。综上总结出以下两个要求:

  1. \(f(1)=1\)
  2. \(f(x+1)=xf(x),\forall x\in R^+\)

毫无疑问,\(\Gamma(x)\)是满足上述两个条件的,但问题是满足上述两个条件的函数也是无穷多个,这里我们给出一个典型的构造方法。

  1. 我们将数轴正半轴以1为单位划分成段,构造分段函数\(g_0(x),x\in(0,1];g_1(x),x\in(1,2];g_2(x),x\in(2,3];\dotsb;g_n(x),x\in (n,n+1];\dotsb\)
  2. 在区间\([1,2]\)内任意找出一个连续函数\(g_1\),使得\(g_1(1)=g_1(2)=1\)。因为根据条件1和2,\(f(1)=1,f(2)=1\times f(1)=1\)
  3. 根据条件2的递推关系,当\(x\in (0,1]\),有\(x\times g_0(x)=g_1(x)\Rightarrow g_0(x)=\frac{g_1(x)}{x}\)
  4. 根据条件2的递推关系,当\(x\in (n,n+1],n>1\)时,有\(g_n(x)=g_1(x)\prod_{k=1}^{n-1}(x-k)\)
  5. 将函数段\(g_0,g_1,g_2,\dotsb\),组合起来,即构造为伪\(\Gamma\)函数同时满足条件1,2。

举个例子,令\(g_1(x)=1\),其构造的函数分别为: \[ \begin{aligned} &g_0(x)=1/x,\qquad 0<x\le 1;\\ &g_1(x)=1,\qquad 1<x\le 2;\\ &g_2(x)=x-1,\qquad 2<x\le 3;\\ &g_3(x)=(x-1)(x-2),\qquad 3<x\le 4;\\ &g_4(x)=(x-1)(x-2)(x-3),\qquad 4<x\le 5;\\ &\qquad \vdots \end{aligned}\tag{34} \] 函数图像为: 伪gamma函数1.png

有些人觉得分段函数在每段连接处是生硬地转折,不可微,看上去不够自然。那么加上可微这个条件\(\Gamma\)函数是否就是唯一解呢?依旧不是。我们可以利用\(\Gamma\)函数构造出其他满足条件的例子,我们任意找一个解析并且周期为1的周期函数\(p(x)\),同时确保\(p(1)=1\),比如\(p(x)=1+\sin(2\pi x)\),那么函数 \[g(x)=\Gamma(x)p(x)\tag{35}\] 就是一个符合上述三个要求的函数,其函数图像如下:

可微的伪Gamma函数.png

可微的伪Gamma函数.png

既然,这样都不是充分条件,那么我们还要如何加强这个问题,使得\(\Gamma\)函数成为唯一解呢?在19世纪中叶,数学家们确实给出了能让\(\Gamma\)函数作为唯一满足条件的连续函数。

  1. \(\Gamma(1)=1\)
  2. \(\Gamma(x+1)=x\Gamma(x),\forall x\in R^+\)
  3. 满足反射公式:
  • \[\Gamma(z)\Gamma(1-z)=\frac{\pi}{\sin(\pi z)}\tag{35}\]
  1. 满足乘法公式:
  • \[\Gamma(nz)=(2\pi)^{\frac{1-n}{2}}n^{nz-\frac{1}{2}}\Gamma(z)\Gamma(z+\frac{1}{n})\Gamma(z+\frac{2 }{n})\dotsb\Gamma(z+\frac{n-1}{n})\tag{36}\]

不过新加的两个条件很难说是“符合直觉的”,它们太复杂,而且与其说是条件,倒不如说是\(\Gamma(x)\)函数所特有的性质,有点先射箭,再画靶的嫌疑。

传统的数学分析领域似乎已经无法为我们提供更多帮助了。很多时候,代数和分析是相辅相成的,在康托尔发展了集合论以及拓扑学的完善之后,在20世纪之交,一个很“视觉”的概念,“凸函数”被提出来。

\(f\)称为凸函数,意思是对\(0\leq t\leq 1\)及任意\(x_{1},x_{2}\in C\),皆有 \[f\left(tx_{1}+(1-t)x_{2}\right)\leq tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)\tag{37}\]

在代数上的描述并不直观,但是从几何上来说,凸函数就是函数上任意两点的连续都在函数上方,如下图:

凸函数定义.png

凸函数定义.png

凸函数不像三角函数\(\sin,\cos\)那样上下波动,形状相对固定,在研究中有非常方便的性质,比如局部最优就是全局最优,二阶导非负(多元情况下就是Hessian矩阵半正定),这些方便的性质迅速让凸函数在均值理论、拓扑学、博弈论、线性规划中得到了广泛应用,为此还发展出了专门的一个方向:凸优化。因此,如果研究者发现需要研究的函数是“凸”的,那么他会大松一口气,很多问题就能够轻易的解决。

而欧拉给出的\(\Gamma(x)\)函数恰好在正实数范围内是“凸”的,同时在负数部分的每一小段也都是“凸”的,我们从\(\Gamma\)函数的图像中很容易看出这一点。而Hadamard延拓出的函数式(33)和我们构造的解析的伪\(\Gamma\)函数\(g(x)=\Gamma(x)p(x)\)(式(35))显然不满足“凸”这个性质。那么,很多数学家自然而然的想到,\(\Gamma\)函数是不是唯一满足条件1,2的凸函数呢?

答案显然也不是,其实我们在前面已经给出了反例,就是前面构造出来的分段函数式(34)。虽然它是一段段曲线拼接起来的,且在拼接处不解析,但它是货真价实的凸函数。

不过,抓到“凸”这个特性,我们离真正的答案也就不远了。

在1922年,丹麦数学家Harald Bohr和Johannes Mollerup发现,\(\Gamma(x)\)函数不仅仅是凸的,而且\(\log\Gamma(x)\)也是凸函数,即对数凸函数!对数凸函数是一个比凸函数更强的条件,对数凸函数必然是凸函数,由于对数函数会大幅降低函数成长的速率,因此若取对数后仍为凸函数,表示函数上升的速度比凸函数还快,因此会称为超凸函数。两位数学家证明:

Bohr–Mollerup定理:在\(x>0\)的区间上,\(Γ\)函数 \[\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}\mathrm{d}t \tag{2.1}\]唯一同时满足以下3条性质的函数 f :

  1. \(f(1)=1\)
  2. \(f(x+1)=xf(x),\forall x\in R^+\)
  3. \(f\)是对数凸函数。

这个定理最早是出现在一本复分析教科书中,并且证明过程并不复杂,以至于当时Bohr和Mollerup都以为这是一个人们肯定已经知道的结果。不过这个定理确实是第一个给出了阶乘函数的解析延拓在何种情形下一定是\(Γ\)函数的简明充要条件。后来,数学家Emil Artin简化了定理的证明,因此这个定理也被称为“Bohr–Mollerup-Artin定理”。

这个定理让数学家非常满意,让\(\Gamma\)函数充满了优雅与简洁的独特美学,甚至让追求严格性著称的尼古拉·布尔巴基合作者协会都以此作为阐述\(\Gamma\)函数的切入点。

不完全Gamma函数与不完全Beta函数

不完全\(Γ\)\(\Beta\)函数是\(Γ\)函数与\(\Beta\)函数的不定积分形式。这里不打算介绍太多,只介绍基本思想。由于两类欧拉积分都是定积分,在给出参数后就是固定值,后来数学家为了将它们推广到不定积分,就分别给出了不完全\(Γ\)函数与不完全\(\Beta\)函数。

\(Γ\)函数式(2.1),根据将上限变成不定积分和下限变成不定积分又分成上不完全\(Γ\)函数和下不完全\(Γ\)函数,其解析表达式如下:

上不完全\(Γ\)函数: \[\Gamma(s,x) = \int_x^{\infty} t^{s-1}\,e^{-t}\,{\rm d}t\quad \Re(s)>0, x\in\mathbb R_0^+\tag{38}\]\(x=0\)时,上不完全\(Γ\)函数就是\(Γ\)函数\(\Gamma(s,0)=\Gamma(s)\)

下不完全\(Γ\)函数: \[\gamma(s,x) = \int_0^x t^{s-1}\,e^{-t}\,{\rm d}t \quad \Re(s)>0, x\in\mathbb R_0^+\tag{39}\]

不完全\(\Beta\)函数是\(\Beta\)函数的一个推广,把\(\Beta\)函数中的定积分用不定积分来代替,需要指出的是不同于不完全\(\Gamma\)函数,不完全\(\Beta\)函数只会将上限改为不定积分。

不完全\(\Beta\)函数: \[ \Beta(x;\,a,b)=\int _{0}^{x}t^{{a-1}}\,(1-t)^{{b-1}}\,dt \quad x\in [0,1],a>0,b>0\tag{40} \]\(x = 1\),上式即化为\(\Beta\)函数。

两类欧拉积分在概率论中的应用

第二类欧拉积分在概率统计中频繁现身,众多的高阶统计分布,包括常见的统计学三大分布 (\(t\)分布,\(χ^2\)分布,\(F\)分布)、\(\Beta\)分布、狄利克雷分布的密度公式中都有\(\Gamma\)函数的身影。而第一类欧拉积分则和二项分布、伯努利分布有着密切关系,常作为贝叶斯统计中的先验分布。

Gamma分布

Gamma分布概率密度函数: \[ p_{_\Gamma}(x|\alpha)=\frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}\tag{41} \]

\(\Gamma\)函数有最直接联系的概率分布当然是直接由\(\Gamma\)函数变换得到的\(\Gamma\)分布,实际上\(\Gamma\)分布就是借\(\Gamma\)函数作为归一化分母而得到的概率分布。如果做一个变换\(x = βt\),就得到伽玛分布的更一般的形式 \[ p_{_\Gamma}(t|\alpha,\beta)=\frac{\beta^{\alpha }t^{\alpha-1}e^{-\beta t}}{\Gamma(\alpha)}\tag{42} \] \(α\)称为 shape parameter,主要决定了分布曲线的形状;\(β\)称为rate parameter,主要决定曲线有多陡。\(θ=1/β\)称为scale parameter,同样决定曲线有多陡。

固定\(α=4\),随着\(β\)(或\(θ=1/β\))参数的增加,x轴的scale在减小,其分布相对就越窄。若放在同一个x轴上, 增加\(β\)将得到更陡的曲线 (相应地,y轴的scale增加)。

gamma分布rate参数.gif

gamma分布rate参数.gif

固定\(β=1\)\(α\)改变,曲线的形态发生改变。

gamma分布shape参数.gif

gamma分布shape参数.gif

在这个形式下,Gamma分布期望\(E(T)=\frac{\alpha}{\beta}\),方差\(Var(T)=\frac{\alpha}{\beta^2}\)

Beta分布

Beta分布概率密度函数: \[ p_{B}=\frac{x^{\alpha-1}(1-x)^{\beta-1}} {\Beta(\alpha,\beta)}\!\tag{43} \] 其中,参数\(\alpha,\beta>0\),定义域\(x\in(0,1)\),分母\(\Beta(\alpha,\beta)\)为Beta函数。

Beta_distribution.png

Beta_distribution.png

期望值和方差分别是:\(\mu =\operatorname {E}(X)={\frac{\alpha }{\alpha +\beta }}\)\(\operatorname {Var}(X)=\operatorname {E}(X-\mu )^{2}={\frac {\alpha \beta }{(\alpha +\beta )^{2}(\alpha +\beta +1)}}\)

Gamma分布与一些常见分布的联系

为了理解Gamma分布的广泛一般性,我们从分布的可加性入手,从最简单的分布开始逐渐深入到Gamma分布。

回想我们在研究最基础的伯努利分布时,将N个伯努利分布叠加后,形成了二项分布\(B(N,p)\),换句话说二项分布就是独立同分布(i.i.d)的伯努利分布加出来的,因此多几个伯努力分布相加还是二项分布,只是二项分布的参数有所改变。这是二项分布可加性的来源。而泊松分布是二项分布在\(\lambda=np\)为定值时, \(p\rightarrow 0, n\rightarrow\infty\)的极限,因此本质也是一种二项分布,不难理解为什么泊松分布也有可加性了。此外,作为二项分布\(n\rightarrow \infty\)的极限的正态分布,自然也是有可加性的,但是这已经拓展到连续分布了。(\(e\)是联系离散和连续的桥梁之一,这也是从离散的二项分布到正态分布表达式突然多出自然常数的一个暗示)。而其它具有可加性的离散分布,比如负二项分布是由N个独立同分布的几何分布加出来的,带有可加性也算是自然而然了。

在连续分布中,也有一些分布是“加”出来的。最常见、应用最广泛的是指数分布\(X\thicksim \exp(\lambda)\)的和,k个指数分布\(X_i\thicksim \exp(\lambda),i\in\{1,2,\dotsb,k\}\)相加是Erlang分布 \[ X_{i}\sim \exp (\lambda ),\\ \sum_{i=1}^{k}{X_{i}}\sim \operatorname {Erlang} (k,\lambda )\Rightarrow p(x;k,\lambda )=\sum_{i=1}^{k}{X_{i}}\sim \operatorname {Erlang} (k,\lambda )\\ p(x;k,\lambda )={\lambda ^{k}x^{{k-1}}e^{{-\lambda x}} \over (k-1)!}\quad {\text{for }}x,\lambda \geq 0,k\geq 1\tag{44} \] 它和指数分布的参数\(\lambda\)是一样的,参数\(k\)是指由\(k\)个指数分布相加。其实际含义可以指代\(k\)个用户/物件到达所用的时间间隔等。显然,有指数分布加出来的Erlang分布也有可加性,无非就是多几个指数分布的和。而将\(k\rightarrow \alpha\)延拓到正实数域,就是Gamma分布\(X\sim \Gamma(\alpha,\lambda)\)\[p(x;\alpha ,\lambda )={\frac {\lambda ^{\alpha }x^{\alpha -1}e^{-\lambda x}}{\Gamma (\alpha )}}\quad {\text{for }}x>0\quad \alpha ,\lambda >0\tag{45}\] 其中,\(\Gamma(\alpha)\)是Gamma函数而卡方分布又是Gamma分布的特例,即\(X\sim \chi^2(n)=\Gamma(\frac{n}{2},\frac{1}{2})\)\[ p(x;n)={\frac {1}{2^{\frac {n}{2}}\Gamma(\frac{n}{2})}}x^{\frac {n}{2}-1}e^{\frac {-x}{2}}\tag{46} \] 因此这两种分布(Gamma分布、卡方分布)也不出意外的有可加性。实际上,这些分布都可以看成是Gamma分布在某种情况下的特例,虽然说历史进程上是从常见分布到Gamma分布,但是Gamma分布确是其他常见分布的根本

Gamma分布的可加性的直接证明一般有两种思路,一是使用两个独立随机变量和的概率密度函数等于其概率密度函数的卷积;二是使用特征函数,独立随机变量的和等于特征函数的积。假设两个独立的服从Gamma分布的随机变量\(X\sim p_{_X}(x;\alpha_1,\lambda),Y\sim p_{_Y}(x;\alpha_2,\lambda)\),现需证明\(Z=X+Y\sim \Gamma(\alpha_1+\alpha_2,\lambda)\)

证明方法1:独立随机变量和等于概率密度函数卷积。由独立随机变量和的关系可知: \[ \begin{aligned} p_{_Z}(x)&=p_{_X}(x)*p_{_Y}(x)\\ &=\int_{-\infty}^{+\infty} p_{_X}(x-\tau)p_{_Y}(\tau)\mathrm{d}\tau \end{aligned}\tag{47} \] 由于Gamma分布的概率密度函数在负数区域都为0,即\(\tau\leq 0\)时,\(p_{_Y}(\tau)=0\),因此积分限 可以简化为\((0,\infty)\),式(47)带入具体表达式有: \[ \begin{aligned} p_{_Z}(x)&=\int_{-\infty}^{+\infty} p_{_X}(x-\tau)p_{_Y}(\tau)\mathrm{d}\tau\\ &= \int_{0}^{+\infty} {\frac {\lambda ^{\alpha_1}(x-\tau)^{\alpha_1-1}e^{-\lambda (x-\tau)}}{\Gamma (\alpha_1)}}\times{\frac {\lambda ^{\alpha_2}\tau^{\alpha_2-1}e^{-\lambda\tau}}{\Gamma (\alpha_2)}}\mathrm{d}\tau\\ &=\frac{\lambda^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\lambda x}\int_{0}^{+\infty}(x-\tau)^{\alpha_1-1}\tau^{\alpha_2-1}\mathrm{d}\tau\\ &\overset{提取x}{=}\frac{\lambda^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\lambda x}x^{\alpha_1+\alpha_2-2}\int_{0}^{+\infty}(1-\frac{\tau}{x})^{\alpha_1-1}(\frac{\tau}{x})^{\alpha_2-1}\mathrm{d}\tau\\ \end{aligned} \tag{48} \] 我们令\(\tau/x=t\),则有\(\mathrm{d}\tau=x\mathrm{d}t\)。同时由于\(x>\tau>0\),所以\(t=\frac{\tau}{x}\in(0,1)\)。式(48)可写为 \[ \begin{aligned} p_{_Z}(x)&=\frac{\lambda^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\lambda x}x^{\alpha_1+\alpha_2-2}\int_{0}^{+\infty}(1-t)^{\alpha_1-1}t^{\alpha_2-1}x\mathrm{d}t\\ &=\frac{\lambda^{\alpha_1+\alpha_2}}{\Gamma(\alpha_1)\Gamma(\alpha_2)}e^{-\lambda x}x^{\alpha_1+\alpha_2-1}\Beta(\alpha_1,\alpha_2)\\ &=\frac{\lambda^{\alpha_1+\alpha_2}x^{\alpha_1+\alpha_2-1}e^{-\lambda x}}{\Gamma(\alpha_1+\alpha_2)}=p(x;\alpha_1+\alpha_2,\lambda) \end{aligned}\tag{49} \] 即服从\(p_{_\Gamma}(x|\alpha_1+\alpha_2,\lambda)\),得证。

证明方法2:使用特征函数。可知Gamma分布的特征函数为\(\phi_{_\Gamma}(t)=(1-it/\beta)^{-\alpha}\),特征函数有一个性质:

\(X_1,\ldots,X_n\) 相互独立, \(X_k\) 特征函数为 \(\phi_k(t)\),则 \(Y=X_1+\cdots+X_n\) 的特征函数为 \(\phi_Y(t)=\phi_1(t)\cdots\phi_{k}(t)\)

那么\(X+Y\)的特征函数应为\(\phi_{_{X+Y}}(t)=(1-it/\lambda)^{-\alpha_1}(1-it/\lambda)^{-\alpha_2}=(1-it/\lambda)^{-(\alpha_1+\alpha_2)}\)。再由特征函数的反演唯一性可得\((1-it/\lambda)^{-(\alpha_1+\alpha_2)}\)对应的概率密度函数为\(p_{_\Gamma}(x|\alpha_1+\alpha_2,\lambda)\),得证。

附:Gamma函数、Beta函数关系以及其他函数

Gamma函数与Beta函数关系推导

从文章开头的式(1)我们就给出了\(\Gamma\)函数和\(\Beta\)函数二者的关系,其具体推导过程如下: \[ \begin{aligned} \Gamma(x) \Gamma(y) &= \int_0^{+\infty} e^{-t} t^{x-1} \mathrm{d}t \int_0^{+\infty} e^{-s} s^{y-1} \mathrm{d}s \\ & = \int_0^{+\infty} \int_0^{+\infty} e^{-(s+t)} t^{x-1} s^{y-1} \mathrm{d}s \mathrm{d}t \\ &=4 \int_0^{+\infty} \int_0^{+\infty} e^{-(u^2+v^2)} u^{2x-2} v^{2y-2} \cdot uv \mathrm{d}u \mathrm{d}v \quad (t=u^2,s=v^2)\\ &= 4 \int_0^{+\infty} \int_0^{+\infty} e^{-(u^2+v^2)} u^{2x-1} v^{2y-1} \mathrm{d}u \mathrm{d}v \\ &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} e^{-(u^2+v^2)} |u|^{2x-1}|v|^{2y-1} \mathrm{d}u \mathrm{d}v \\ &= \int_0^{+\infty} \int_0^{2\pi} r e^{-r^2} r^{2x-1} |\cos \theta|^{2x-1} r^{2y-1} |\sin \theta|^{2y-1} \mathrm{d}r \mathrm{d}\theta \quad (u=r\cos \theta,v=r\sin \theta) \\ &= \int_0^{+\infty} r e^{-r^2} r^{2x+2y-2} \mathrm{d}r \int_0^{2\pi} |\cos \theta|^{2x-1} |\sin \theta|^{2y-1} \mathrm{d} \theta \\ &= \frac{1}{2} \int_0^{+\infty} e^{-r^2} r^{2(x+y-1)} \mathrm{d}r^2 \int_0^{2\pi} |\cos \theta|^{2x-1} |\sin \theta|^{2y-1} \mathrm{d} \theta \\ &= \frac{1}{2} \Gamma(x+y) \int_0^{2\pi} |\cos \theta|^{2x-1} |\sin \theta|^{2y-1} \mathrm{d} \theta \\ &= \Gamma(x+y) \cdot 2\int_0^{\frac{\pi}{2}} \cos^{2x-1} \theta \sin^{2y-1} \theta \mathrm{d} \theta \\ &= \Gamma(x+y) \cdot 2 \int_0^1 t^{x-\frac{1}{2}} (1-t)^{y-\frac{1}{2}} \frac{1}{2} t^{-\frac{1}{2}} (1-t)^{-\frac{1}{2}} \mathrm{d}t \quad (t=\cos^2 \theta,\sin \theta =(1-t)^\frac{1}{2}, \mathrm{d}t = -2 t^{\frac{1}{2}} (1-t)^{\frac{1}{2}} \mathrm{d} \theta) \\ &= \Gamma(x+y) \int_0^1 t^{x-1} (1-t)^{y-1} \mathrm{d}t \\ &= \Gamma(x+y) \Beta (x,y).\\ &\Rightarrow \Beta(x,y)=\frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)} \end{aligned}\tag{A1} \]

Gamma函数与Psi函数

\(\psi\)函数又称双伽玛函数,是伽玛函数的对数导数,即 \[ \psi (x)={\frac {d}{dx}}\ln {\Gamma (x)}={\frac {\Gamma '(x)}{\Gamma (x)}}\tag{A2} \]\(\psi\)函数可以推导出Stirling级数。

Gamma函数与zeta函数

黎曼泽塔函数,写作\(ζ(z)\)的定义如下:设一复数\(z\)使得\(Re(z)>1\),则定义: \[ \zeta(z)=\sum_{n=1}^\infty \frac{1}{n^z}\tag{A3} \] 它亦可以用积分定义: \[ \zeta(z)=\frac{1}{\Gamma(z)}\int_{0}^{\infty} \frac{x^ {z-1}}{e^x-1} \mathrm{d}x\tag{A4} \] 黎曼的\(ζ\)函数被数学家认为主要和“最纯”的数学领域数论相关,黎曼函数最著名的就是黎曼猜想:

黎曼猜想:黎曼\(ζ\)函数的非平凡零点(在此情况下是指\(z\)不为-2,-4,-6,...,等点的值)的实数部分是\(\frac{1}{2}\)

\(\Gamma\)函数与\(ζ\)函数有如下关系: \[ \pi ^{-{\frac {z}{2}}}\;\Gamma \left({\frac {z}{2}}\right)\zeta (z)=\pi ^{-{\frac {1-z}{2}}}\;\Gamma \left({\frac {1-z}{2}}\right)\;\zeta (1-z)\tag{A5} \]