概率论和信息论基础

1. 概率论对于深度学习的意义

两方面的意义:构建算法和推理算法; 评估ai模型和结果.
这两句话总结的很好:概率论使得我们能对”不确定性”进行陈述和表达,并在这种”不确定性”的基础上做出推理;信息论使得我们能够量化概率分布不确定性.而机器学习必须处理不确定性量甚至是随机性量.
一个重要的准则是:”简单但是不确定”而不是”复杂但是确定”.机器学习语境下的概率常指可信度(degree of belief),以即贝叶斯概率和频率概率的区别(这一段dl这本书说得很不严谨)

2. 概率分布

2.1 基本概念

随机变量有许多可能状态,每个状态对应不同的出现的可能性,描述各个可能状态出现的可能性大小的分布即为概率分布.
概率质量函数（probability mass function，简写为pmf）是离散随机变量在各特定取值上的概率。概率质量函数和概率密度函数(probability desity function，简写为pdf)不同之处在于：概率密度函数是对连续随机变量定义的，本身不是概率，只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。
联合概率分布,边缘概率分布.
条件概率; 条件概率的链式法则; 独立性;
在给定有限次的观测前提下,对随机变量x的概率分布p(x)建模,这个问题被称为密度估计(density estimation)

2.2 常见概率分布

伯努利分布

$f(k;p)=p^{k}(1-p)^{1-k}\!\quad {\text{for }}k\in \{0,1\}$

伯努利分布的情形下,通过最大似然函数来估计u参数值,得到最大似然估计值为:正面朝上的概率等于观测到的数据集正面朝上的观测所占的比例.最大似然容易产生过拟合,所以最好引入参数u的先验分布.

二项分布(Binomial distribution)
概念:给定数据集规模N的条件下,x=1观测出现的数量为k的概率分布,被称为二项分布. 二项分布即为重复n次的伯努利试验.

$f(k;n,p)=\Pr(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$ ${\binom {n}{k}}={\frac {n!}{k!(n-k)!}}$

二项分布和总数和概率相关,如下图所示:

Beta分布(Beta distribution)
引入关于参数u的先验分布.首先是连续概率分布. 知乎的问题回答得比较生动说明了如何通俗理解beta分布. beta分布可以看作一个概率的概率分布

${\begin{aligned}f(x;\alpha ,\beta )&=\mathrm {constant} \cdot x^{\alpha -1}(1-x)^{\beta -1}\\[3pt]&={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\displaystyle \int _{0}^{1}u^{\alpha -1}(1-u)^{\beta -1}\,du}}\\[6pt]&={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}\,x^{\alpha -1}(1-x)^{\beta -1}\\[6pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}x^{\alpha -1}(1-x)^{\beta -1}\end{aligned}}$

相当于α和β是形状修正因子(都是超参数),而前面的常数(归一化常数)是为了共轭做的修正,保证Beta分布式归一化.共轭保证先验分布是beta分布,后验分布还是Beta分布

$\operatorname{E}[X] = \frac{\alpha}{\alpha+\beta}\!$ $\operatorname{var}[X] = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\!$

Beta二项分布(Beta-binomial distribution)

${\displaystyle {\begin{aligned} P(\theta |data) \propto \theta^m(1-\theta)^{l}*\theta^{a-1}(1-\theta)^{b-1} \\ \propto \theta^{a+m-1}(1-\theta)^{b+l-1} \end{aligned} } }$

从先验概率到后验概率,α和β的值都变大了m和l,那么我们可以将α和β理解为x=1和x=0的有效观测数.接下来增加观测,后验概率的分布可以转变成先验分布的角色.随着观测的数据越来越多,后验概率表示的不确定性将会持续下降.

多项式分布(multinomial distribution)
多项式分布是二项分布的扩展,对”k种可能,每种可能有着各自固定的出现概率,n次独立试验”的概率分布.当k是2,n是0的多项式分布是伯努利分布;当k是2,n是超过1的试验次数的多项式分布是二项式分布;当n是1的多项式分布是分类分布.

The Bernoulli distribution is the probability distribution of whether a Bernoulli trial is a success. In other words, it models the number of heads from flipping a (possibly biased) coin one time. The binomial distribution generalizes this to the number of heads from doing n independent flips of the same coin. For the multinomial distribution the analog to the Bernoulli Distribution is the categorical distribution. Instead of flipping one coin, the categorical distribution models the roll of one k sided die. So the multinomial distribution can model n independent rolls of a k sided die

${\begin{aligned}f(x_{1},\ldots ,x_{k};n,p_{1},\ldots ,p_{k})&{}=\Pr(X_{1}=x_{1}{\text{ and } }\dots {\text{ and }}X_{k}=x_{k})\\&{}={\begin{cases}{\displaystyle {n! \over x_{1}!\cdots x_{k}!}p_{1}^{x_{1} }\cdots p_{k}^{x_{k} } },\quad &{\text{when } }\sum _{i=1}^{k}x_{i}=n\\\\0&{\text{otherwise,} }\end{cases}}\end{aligned} }$

x表示观测到该值出现的次数

狄利克雷分布(Dirichlet distribution)
狄利克雷分布是Beta分布的多元扩展,是贝叶斯统计中常见的先验分布,是分类分布和多项式分布的共轭先验.

$f\left(x_{1},\ldots ,x_{K-1};\alpha _{1},\ldots ,\alpha _{K}\right)={\frac {1}{\mathrm {B} ({\boldsymbol {\alpha }})}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1},$ $\mathrm {B} ({\boldsymbol {\alpha }})={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma \left(\sum _{i=1}^{K}\alpha _{i}\right)}},\qquad {\boldsymbol {\alpha }}=(\alpha _{1},\ldots ,\alpha _{K}).$

高斯分布(Gaussian distribution)

高斯分布也称为正态分布,一元变量x和D维向量x的高斯分布形式如下:

$f(x\;|\;\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2} } } }\;e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}} } }$ ${\begin{aligned}f_{\mathbf {x} }(x_{1},\ldots ,x_{k})&={\frac {\exp \left(-{\frac {1}{2}}({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)}{\sqrt {(2\pi )^{k}|{\boldsymbol {\Sigma }}|}}}\\[5pt]&={\frac {\exp \left(-{\frac {1}{2}}({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)}{\sqrt {|2\pi {\boldsymbol {\Sigma }}|}}},\end{aligned}}$

高斯分布的缺点:

- 参数随着唯独的增长而呈平方的方式增长,解决办法:使用协方差矩阵的限制形式,协方差矩阵-对角的协方差矩阵-各向同性协方差矩阵   
- 高斯分布是单峰的,因此不能很好的近似多峰分布,解决办法:引入潜在变量,相当多的多峰分布可以使用混合高斯分布来描述

条件高斯分布和边缘高斯分布
高斯变量的贝叶斯定理

泊松分布(Poisson distribution)和指数分布(Exponential distribution)
泊松分布的参数λ是单位时间（或单位面积）内随机事件的平均发生率 $P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$

其中λ > 0是分布的一个参数，常被称为率参数(rate parameter)。即每单位时间发生该事件的次数
指数分布的概率密度函数是

$f(x;\lambda) = \left\{\begin{matrix} \lambda e^{-\lambda x} &,\; x \ge 0, \\ 0 &,\; x < 0. \end{matrix}\right.$

Laplace分布
随机变量的概率密度函数分布为
$f(x|\mu,b) = \frac{1}{2b} \exp \left( -\frac{|x-\mu|}{b} \right) \$
分布的混合
- 高斯混合模型

3. 期望,方差和协方差

$\mu =\sum _{i=1}^{n}p_{i}\cdot f(x_{i}).$ $\mu =\int p(x)\,f(x)\,dx\,$ ${\begin{aligned}\operatorname {Var} (f(x))&=\operatorname {E} \left[(f(x)-\operatorname {E} [f(x)])^{2}\right]\\&\end{aligned} }$ $\operatorname {cov} (f(x),g(y))=\operatorname {E} { {\big [}(f(x)-\operatorname {E} [f(x)])(g(y)-\operatorname {E} [g(y)]){\big ]} },$

3. 贝叶斯视角

4. Maximum likelihood estimation

4.1 基本概念

In statistics, maximum likelihood estimation (MLE) is a method of estimating the parameters of a statistical model given observations, by finding the parameter values that maximize the likelihood of making the observations given the parameters
固定的数据潜在的统计Christopher M Bishop模型最大似然选择参数值以最大化似然函数
maximizes the “agreement”

4.2 准则

独立同分布的观测值参数模型估计这个模型的参数
数据是事实了如何使用最合理的参数使得已经成为事实的数据最大概率的出现

$f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )=f(x_{1}\mid \theta )\times f(x_{2}|\theta )\times \cdots \times f(x_{n}\mid \theta )$ ${\mathcal {L}}(\theta \,;\,x_{1},\ldots ,x_{n})=f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )=\prod _{i=1}^{n}f(x_{i}\mid \theta ).$

对数似然,再或者是对数似然的均值
参看维基百科对最大似然函数的解释

$\ln {\mathcal {L}}(\theta \,;\,x_{1},\ldots ,x_{n})=\sum _{i=1}^{n}\ln f(x_{i}\mid \theta ),$

Christopher M Bishop

最大似然估计和最大后验估计(Maximum a posteriori estimation
MAP)不谋而合

$P(\theta \mid x_{1},x_{2},\ldots ,x_{n})={\frac {f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )P(\theta )}{P(x_{1},x_{2},\ldots ,x_{n})}}$

5. Maximum a posteriori estimation

最大后验概率估计与最大似然估计中的经典方法有密切关系，但是它使用了一个增广的优化目标，进一步考虑了被估计量的先验概率分布。所以最大后验概率估计可以看作是规则化（regularization）的最大似然估计。
考虑了被估计量的先验分布
这样f(θ)就是总体参数为θ时x的概率
函数

$\theta \mapsto f(x|\theta )\!$

就是似然函数
估计就是θ的最大似然估计:

${\hat {\theta } }_{ { {\mathrm {ML} } } }(x)=\arg \max _{ {\theta } }f(x|\theta )\!$

假设θ存在一个先验分布g,这样θ的后验分布就是:

$\theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\int _{ {\Theta } }f(x|\theta ')\,g(\theta ')\,d\theta '} }\!$

最大后延估计就是估计θ为这个随机变量的后验分布的众数:

${\hat {\theta } }_{ { {\mathrm {MAP} } } }(x)=\arg \max _{ {\theta } }{\frac {f(x|\theta )\,g(\theta )}{\int _{ {\Theta } }f(x|\theta ')\,g(\theta ')\,d\theta '} }=\arg \max _{ {\theta } }f(x|\theta )\,g(\theta )\!$

最大后验估计是点估计,并不属于贝叶斯方法

6. KL散度

6.1 概念

The Kullback–Leibler divergence是一种概率分布和期望的概率分布的偏离的测量
在贝叶斯视角，是先验概率分布Q和后验概率分布P的信息增益.P代表数据和观测值的真实分布。
机器学习语境，KL散度常被称为信息增益，或者是分布P相对于分布Q的相对熵(relative entropy).在对未知概率分布建模时,使用了不同于真实真实的概率分布,会损失编码效率,额外的信息量即为两个分布之间的KL散度.

6.2 形式Christopher M Bishop

对于离散概率分布P和Q

$D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\,\log {\frac {P(i)}{Q(i)}}.$

也就是两个概率log差的期望

对于连续概率分布P和Q

$D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\,\log {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!$

更一般地

$D_{\mathrm {KL} }(P\|Q)=\int _{X}\log {\frac { {\rm {d} }P}{ {\rm {d} }Q} }\,{\rm {d} }P,\!$

6.3 信息论的视角

信息论:计量信号中多少信息被表现出来.量化信息的两个准则:

不太可能发生的事件发生提供更多的信息,信息内容的度量依赖于概率分布p(x),信息的表示函数应该是概率的单调递增函数
独立的事件有额外的信息,两个独立事件同时发生的信息应该等于事件各自发生获得的信息之和
此时应该有:

$h(x, y)=h(x)+h(y)$ $p(x,y)=p(x)p(y)$

信息量h(x)的定义满足上面两个准则:

$h(x)=\log _{2}p(x)$

垫付（611.00元）

香农熵则定义为随机变量的信息量的期望,如以下公式所示(分别是连续随机变量和离散随机变量的熵的表达形式).当然标准的香农熵应该以2为对数的底,此时熵的单位是比特.我们常用自然对数,此时熵的单位是nat.非均匀分布均匀分布的熵要小,熵是传输一个随机变量状态值所需的比特位的下界.

$\mathrm {H} (X)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\ln(\mathrm {P} (X))].$ $\mathrm {H} (X)=\sum _{i=1}^{n}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i=1}^{n}{\mathrm {P} (x_{i})\log _{b}\mathrm {P} (x_{i})},$ $h(X) = -\int_\mathbb{X} f(x)\log f(x)\,dx$

最大化微分熵的分布是高斯分布,高斯分布的微分熵如下所示;熵的大小随着分布的宽度即方差的增加而增加,微分熵可以为负.各类分布的微分熵可以详见维基百科词条微分熵

$\ln\left(\sigma\sqrt{2\,\pi\,e}\right)$

KL散度正是两个分布的相对熵

6.4 KL散度的特点

非负, P和Q是相同的分布,则KL散度是0
非对称的
$D_{\mathrm {KL} }(P\|Q) \neq D_{\mathrm {KL} }(Q\|P)\,\!$
正是因为P和Q分布不一致,才导致了两者的KL散度不一致

7. 交叉熵,条件熵

$H(p,q)=\operatorname {E}_{p}[-\log q]=H(p)+D_{ { {\mathrm {KL} } } }(p\|q)\!$

最小化交叉熵等价于最小化KL散度

离散的情况

$H(p,q)=-\sum _{x}p(x)\,\log q(x)\$

参考资料

Deep Learning, Ian Goodfellow et al;
Pattern Recognition and Machine Learning; Christopher M Bishop
维基百科Differential entropy
维基百科Entropy)
维基百科Kullback–Leibler divergence
维基百科Cross_entropy
维基百科multinomial distribution
维基百科Dirichlet distribution