前言

高斯分布是我们常用的一个概率分布，特别是在处理误差时，一个最常用假设就是误差呈高斯分布:

$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

这个公式有很多漂亮的性质，在这里就不做过多的说明。本文主要探讨一下为什么误差分布一般会呈高斯分布以及高斯分布的一些直观含义？

误差度量与最小二乘法

日常生活中，最常用的误差度量方法是欧式距离，文章《Mean squared error: Love it or leave it?》做出了很好的讨论。这个误差度量符合一些很好的性质：

非负
对称
三角性质
唯一确定
便于计算（可导）

当然我们可以使用一些其他的度量方法（如差的绝对值），但在欧式空间中，没有比 MSE 更简介自然的方法了。

幂律分布

我们常说小错常犯，大错希犯，也就是说一些小的误差会经常出现，而重大误差出现的概率较低。而自然界中常见的幂律分布就满足这种特点。

其公式为

$f(x) = Me^{-Cx^2}$

其中 M,C 均为常数，可以看出这个形式已经和高斯分布非常接近了。实际上这个公式不是凭空想象出来的，在这个帖子里有详细的推导过程。

高斯分布

如果一堆数据点遵循高斯分布，我们可以想象其生成过程如下：首先有个确定的中心点，也就是高斯分布的 $\mu$，然后各个数据点因为有噪声的存在，生成在 $\mu$ 的周围，我们采用欧式距离来衡量误差大小，而且误差大小遵循幂律分布.

借助幂律分布的基本形式和正规化限制，我们便可以推导出高斯分布的形式，在推导之前我们需要知道两个基本的积分：

$\begin{align} \int e^{-x^2} dx &= \sqrt{\pi} \\ \int x^2 e^{-x^2} dx &= \frac{\sqrt{\pi}}{2} \end{align}$

首先，f(x)是一个概率分布，其在定义域上的积分为1，因此有(为了简洁，我们用 $x$ 替代 $x - \mu$ )

$\begin{align} \int f(x) dx &= \int Me^{-Cx^2} dx \\ &= \frac{M}{\sqrt{C}} \int e^{-Cx^2} d\sqrt{C}x \\ &= \frac{\sqrt{\pi}M}{\sqrt{C}} = 1 \end{align}$

因此

$C = \pi M^2$

除此之外，这个分布的方差应该等于实际数据的方差，也就是说：

$\begin{align} \int x^2 Me^{-Cx^2} dx = \frac{M}{C^{\frac{3}{2}}} \int Cx^2 e^{-Cx^2} d\sqrt{C}x \\ = \frac{M}{C^{\frac{3}{2}}} \frac{\sqrt{\pi}}{2} = \sigma^2 \end{align}$

联合之前得到的式子，我们可以解出：

$\begin{align} M &= \frac{1}{\sqrt{2\pi}\sigma} \\ C &= \frac{1}{2\sigma^2} \end{align}$

协方差矩阵与马氏距离

上面我们所说的都是一维的高斯，而多维的高斯公式长这样：

$f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^k |\Sigma|}}e^{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu)}}$

其中 $\Sigma$ 是数据的协方差矩阵，我们可以来看一下几个二维高斯的例子：

协方差矩阵所描述的是随机变量之间的线性关系。上面最左边的图中协方差矩阵是一个标准阵，所以高斯分布呈现一个正圆的形状。当协方差矩阵变化时，分布的变化则体现为缩放和旋转。因此在高斯分布的公式中，右上角距离度量乘上协方差矩阵的逆的意义在于，将一个椭圆的分布拉回正圆形状。实际上这也正式马氏距离的定义：

$d = \sqrt{(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})}$

通俗一点来说，就是距离在各个方向上的重要程度不一样，例如在上面中间那幅图中，y轴上的距离比x轴更重要，因为数据在x轴方向上的分布方差更大。通过乘以协方差矩阵的逆，我们可以将它们的重要程度调整到相同的水平。

随机误差与高斯分布

前言

误差度量与最小二乘法

幂律分布

高斯分布

协方差矩阵与马氏距离

FEATURED TAGS

FRIENDS