3.1 Why Probability?

  • 不确定性的三种来源
  • 频率派概率和贝叶斯概率

3.2 Random Variables

  • 随机变量:可以随机取不同值的变量。
  • 例如, $x_1$ 和 $x_2$ 都是随机变量 $\mathrm{x}$ 可能取的值。

3.3 Probability Distributions

3.3.1 Discrete Variables and Probability Mass Functions

  • 概率质量函数 $P(\mathrm{x})$ ,函数 $P$ 需要满足以下条件:

    • $P$ 的定义域是 $\mathrm{x}$ 的可能取值集合。
    • $\forall x \in \mathrm{x},0\lt P(x) \lt 1$
    • $\sum_{x\in \mathrm{x}}P(x)=1$
  • 联合概率分布: $P(\mathrm{x}=x,\mathrm{y}=y)$

3.3.2 Continuous Variables and Probability Density Functions

  • 概率密度函数 $p(\mathrm{x})$ ,需要满足以下条件

    • $P$ 的定义域是 $\mathrm{x}$ 的可能取值集合。
    • $\forall x \in \mathrm{x},p(x)\lt 1$ 。与概率质量函数不同之处在于并不要求 $p(x)$ lt 1
    • $\sum_{x\in \mathrm{x}}P(x)=1$

3.4 Marginal Probability

  • 离散型变量: $\forall x\in \mathrm{x},P(\mathrm{x}=x)=\sum\limits_y P(\mathrm{x}=x,\mathrm{y}=y)$
  • 连续型变量: $p(x)=\int p(x,y)dy$

3.5 Conditional Probability

  • $P(\mathrm{y}=y|\mathrm{x}=x)=\frac{P(\mathrm{y}=y,\mathrm{x}=x)}{P{\mathrm{x}=x}}$

3.6 The Chain Rule of Conditional Probabilities

  • $P(\mathrm{x}^{(1)},\dots,\mathrm{x}^{(n)})=P(\mathrm{x}^{(1)})\prod_{i=2}^nP(\mathrm{x}^{(i)}|\mathrm{x}^{(1)},\dots,\mathrm{x}^{(i-1)})$

3.7 Independence and Conditional Independence

  • $\mathrm{x}$ 与 $\mathrm{y}$ 相互独立等价于 $\forall x \in \mathrm{x},y \in \mathrm{y},p(\mathrm{x}=x,\mathrm{y}=y)=p(\mathrm{x}=x)p(\mathrm{y}=y)$ ,可以用 $\mathrm{x} \perp \mathrm{y}$ 来表示。
  • $\mathrm{x}$ 与 $\mathrm{y}$ 关于 $\mathrm{z}$ 相互条件独立等价于 $\forall x \in \mathrm{x},y \in \mathrm{y},\forall z \in \mathrm{z},p(\mathrm{x}=x,\mathrm{y}=y|\mathrm{z}=z)=p(\mathrm{x}=x|\mathrm{z}=z)p(\mathrm{y}=y|\mathrm{z}=z)$ ,可以用 $\mathrm{x} \perp \mathrm{y}|\mathrm{z}$ 来表示。

3.8 Expectation, Variance and Covariance

  • 数学期望

    • 离散型: $\mathbb{E}_{\mathrm{x}\sim P}[f(x)]=\sum \limits_x{P(x)f(x)}$
    • 连续型: $\mathbb{E}_{\mathrm{x}\sim p}[f(x)]=\int{p(x)f(x)dx}$
    • 期望是线性的: $\mathbb{E}_\mathrm{x}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E}_\mathrm{x}[f(x)]+\beta \mathbb{E}_\mathrm{x}[g(x)]$
  • 方差: $\mathrm{Var}(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$
  • 协方差

    • $mathrm{Cov}(f(x),g(y))=\mathrm{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]$
    • 独立包括线性和非线性两种,但是协方差只能描述线性关系。独立可以推出协方差为零,但是协方差为零不一定独立,因为可能包含非线性关系。
    • 协方差矩阵:$\mathrm{Cov}(\pmb{\mathrm{x}})_{i,j}=\mathrm{Cov}(\mathrm{x}_i,\mathrm{x}_j)$,其中对角线为方差。

3.9 Common Probability

3.9.1 Bernoulli Distribution

  • 抛一次硬币,正面向上
  • $P(\mathrm{x}=x)=\phi^x(1-\phi)^{1-x}$

3.9.2 Multinoulli Distribution

  • 抛一次骰子,第 $k$ 面向上 * $P{\mathrm{x}=x_k}=\prod \limits_{k=1}^k\phi_k ^{x_k}$

补充

  • 二项分布(抛 $n$ 次硬币, $x$ 次向上): $P(\mathrm{x}=x)=\tbinom{n}{x}\phi^x(1-\phi)^{n-x}$
  • Multinomial 分布(抛 $n$ 次骰子,第 $i$ 面向上 $m_i$ 次): $\frac{n!}{m_1!m_2!\cdots m_k!}\prod \limits_{k=1}^k \phi_k^{m_k}$

3.9.3 Gaussian Distribution

  • $\mathcal{N}(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
  • 从高斯分布的导出讲起——为什么概率密度函数长成这个样子?
  • 可以用 $\beta=\frac{1}{\sigma^2}$ 来表示精度,否则计算方差的倒数很麻烦。
  • 高斯分布的作用:①根据中心极限定理,大量独立随机变量的和近似高斯分布;②在相同的方差下,高斯缝补能够最大化不确定性。
  • 多变量高斯分布: $\mathcal{N}(\pmb{x};\pmb{\mu},\pmb{\Sigma})=\sqrt{\frac{1}{(2\pi)^n\mathrm{det}(\pmb{\Sigma})}}e^{-\frac{1}{2}(\pmb{x}-\pmb{\mu})^\mathrm{T}\pmb{\sigma}^{-1}(\pmb{x}-\pmb{\mu})}$

    • 同理,可以令 $\pmb{\beta}=\pmb{\sigma}^{-1}$
    • 如何推导出该公式,可以参考 多元高斯分布完全解析 。还没有亲自推一遍,但大致思路就是在多元标准高斯分布上进行一些空间的映射变换。

3.9.4 Exponential and Laplace Distribution

  • 指数分布: $p(x;\lambda)=\lambda\pmb{1}_{x\ge 0}e^{-\lambda x}=\begin{cases}\lambda e^{\lambda x},x\ge 0 \\ 0,x\le 0\end{cases}$
  • Laplace 分布:$\mathrm{Laplace}(x;\mu, \gamma)=\frac{1}{2\gamma}e^{-\frac{|x-\mu|}{\gamma}}$

3.9.5 The Dirac Distribution and Empirical Distribution

  • Dirac 分布

    • $p(x)=\delta(x-\mu)$
    • 其中 $\delta(x)$ 是一个广义函数,并没有明确的表达式定义,而是根据积分定义的。可以理解为在除了零以外的点取值都等于零,而其在整个定义域上的积分等于 $1$。
    • 对于这个 $p(x)$ 来说,我们在 $x=\mu$ 处定义了一个无限高无限窄的极值点。
  • 经验分布

    • 连续型: $\hat{p}(\pmb{x})=\frac{1}{m}\sum\limits_{i=1}^{m}\delta(\pmb{x}-\pmb{x}^{(i)})$
    • 离散型:可以理解为 Multinoulli 分布,例子 经验分布
    • 经验分布是将训练集的似然最大化的分布。

3.9.6 Mixtures of Distributions

  • $P(x)=\sum\limits_{i}P(\mathrm{c}=i)P(x|\mathrm{c}=i)$
  • $P(\mathrm{c})$ 是 Multinoulli 分布,是一个先验概率。
  • 经验分布就是混合分布的一个例子。我的理解就是有若干分布,每种分布都有一个被选中的概率。
  • 公式中的 $\pmb{c}$ 是一个潜变量。
  • 高斯混合模型是概率密度的近似器,任何平滑的概率密度都可以用具有足够多的高斯混合模型逼近。

3.10 Useful Properties of Common Functions

  • Logistic Sigmoid

    • $\sigma(x)=\frac{1}{1+e^{-x}}$
    • 常用于拟合伯努利分布的 $\phi$ 参数,因为值域为 $(0,1)$ 。
    • 当 $x$ 极大或极小时,出现饱和现象,对于变化不敏感。
  • Softplus Function

    • $\zeta(x)=\mathrm{log}(1+e^x)$
    • 常用于拟合高斯分布的 $\sigma$ 参数,因为值域为 $(0, \infty)$ 。
    • 是 ReLU 函数的圆滑版, $x^+=\mathrm{max}(0,x)$ 。
    • 当处理包含 sigmoid 函数的表达式时它也经常出现(?)。
  • 重要性质

    • $\sigma(x)=\frac{e^x}{1+e^x}$
    • $\frac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x))$
    • $1-\sigma(x)=\sigma(-x)$
    • $\mathrm{log}\sigma(x)=-\zeta(-x)$
    • $\frac{d}{dx}\zeta(x)=\sigma(x)$
    • $\forall x \in (0,1), \sigma^{-1}(x)=\mathrm{log}(\frac{x}{1-x})$
    • $\forall x>0, \zeta^{-1}(x)=\mathrm{log}(e^x-1)$
    • $\zeta(x)=\int_{-\infty}^{x}\sigma(y)dy$
    • $\zeta(x)-\zeta(-x)=x$

3.11 Bayes' Rule

  • 后验概率
  • $P(\mathrm{x}|\mathrm{y})=\frac{P(\mathrm{x})P(\mathrm{y}|\mathrm{x})}{P(\mathrm{y})}$
  • 其中 $P(\mathrm{y})=\sum_xP(\mathrm{y}|x)P(x)$

3.12 Technical Details of Continuous Variables

  • 测度论相关知识,师兄说不用太掌握啦!
  • 假设我们有两个随机变量 $\mathrm{x}$ 和 mathrm{y},并且满足 $\mathrm{y}=\frac{\mathrm{x}}{2}$ 以及 $x\sim U(0,1)$ 。如果直接使用 $p_y(y) = p_x(2y)$ ,那么 $p_y$ 除了区间 $[0,\frac{1}{2}]$ 以外都为 $0$,并且在这个区间上的值为 $1$,这意味着 $\int p_y(y)dy=\frac{1}{2} \ne 1$ 。因为这涉及到空间的改变,其实就是微积分里 $dy=\frac{1}{2}dx$ 没有考虑进去。

3.13 Information Theory

  • 信息论的思想是基于不确定性越大的事件包含的信息越丰富这一思想,很好理解嘛,当你听说“太阳从东边升起来了”的时候一定觉得没什么,但是反之就不同了。
  • 自信息

    • $I(x)=-\mathrm{log}P(x)$ ,单位为 nats 。
    • 如果 $\mathrm{log}$ 是以 $e$ 为基底的,那么单位是 bits / shannons 。
  • Shannon 熵

    • $H(\mathrm{x})=\mathbb{E}_{\mathrm{x}\sim P}[I(x)]=-\mathbb{E}_{\mathrm{x}\sim P}[\mathrm{log}P(x)]=-\sum\limits_xP(x) \mathrm{log}P(x)$
    • 如图所示,越是不确定的情况下熵越高。在这里, $P(x)=p^x(1-p)^{1-x}$ ,可计算得 $H(x)=(p-1)\mathrm{log}(1-p)-p\mathrm{log}p$ 。
  • KL散度

    • $D_{\mathrm{KL}}(P||Q)=\mathbb{E}_{\mathrm{x}\sim P}[\mathrm{log} \frac{P(x)}{Q(x)}]$
    • 一般用于计算两个分布之间的不同之处。
    • 需要注意 $D_{\mathrm{KL}}(P||Q)$ 与 $D_{\mathrm{KL}}(Q||P)$ 是不同的。如图所示,当我们给定 $P$ 是两个正态分布的混合分布之后,分别在最小化 $D_{\mathrm{KL}}(P||Q)$ 与 $D_{\mathrm{KL}}(Q||P)$ 拟合出的 $Q$ 。至于图像为什么是这个样子,因为 $D_{\mathrm{KL}}(P||Q)=P\mathrm{log}P-P\mathrm{log}Q$ ,也就是让 $P\mathrm{log}Q$ 最大化,整个 $Q$ 对齐 $P$ 才能最大化。但是反过来, $D_{\mathrm{KL}}(Q||P)=Q\mathrm{log}(Q-P)$ ,只在 $Q$ 存在的地方计算 $Q$ 与 $P$ 的差距,可以直接将 $P$ 的一半丢掉,然后用 $Q$ 拟合形态一样的 $P$ 的另一半。

      • 一开始没有看懂这个图,所以……师兄的解释:
        “其实就是两个优化问题啦 假定p是常数, q是自变量, 前者就是 - plog(q), 然后q的积分为1(因为是概率), 但可以看到, p是个常数, 所以就会比较均匀. 但后者是 -qlog(q/p), 这个时候log函数前面也是一个q, 就会很不均匀了. ”
  • 交叉熵

    • $H(P,Q)=H(P)+D_{\mathrm{KL}}(P||Q)=-\mathbb{E}_{\mathrm{x}\sim P}\mathrm{log}Q(x)$
    • 最小和交叉熵与最小化 KL 散度是一样的,因为 $Q$ 不在删除的那一项中。
    • 在机器学习中一般用于优化损失函数,也就是优化实际与训练集的差距。由于训练集那部分是不变的,因此可以用交叉熵的形式。

3.14 Structured Probabilistic Models

  • 作用:把概率分布分解成许多因子的乘积形式,而不是使用单一的函数来表示概率分布,减少用来描述一个分布的参数数量,提高效率。
  • 有向图

    • $p(\pmb{\mathrm{x}})=\prod\limits_i p(\mathrm{x}_i|P_{a_{\mathcal{G}}}(\mathrm{x}_i))$
    • 用条件概率分布来表示分解
    • 例子很好理解,下图所示的分解为 $p(\mathrm{a},\mathrm{b},\mathrm{c},\mathrm{d},\mathrm{e})=p(\mathrm{a})p(\mathrm{b}|\mathrm{a})p(\mathrm{c}|\mathrm{a},\mathrm{b})p(\mathrm{d}|\mathrm{b})p(\mathrm{e}|\mathrm{c})$
  • 无向图

    • $p(\pmb{\mathrm{x}})=\frac{1}{Z}\prod\limits_i\phi^{(i)}(\pmb{\mathcal{C}})^{(i)})$ ,其中常数 $Z$ 用于归一化。
    • 例如,下图可以分解为 $p(\mathrm{a},\mathrm{b},\mathrm{c},\mathrm{d},\mathrm{e})=\frac{1}{Z}\phi ^{(1)}(\mathrm{a},\mathrm{b},\mathrm{c}) \phi^{(2)}(\mathrm{b},\mathrm{d}) \phi^{(3)}(\mathrm{c},\mathrm{e})$
    • 然而其实我并没有看懂这部分。不过师兄说:
      “跳吧 有点复杂, 实际上那个phi是一个势函数, 不是概率. 所以需要除以一个Z, 使他变成概率. 一般来说, 有向图里面的顶点之间的相关性就是通过边连接之后, 计算条件概率得到的. 但无向图就是用这个势函数, 来描述顶点之间的相关关系.”
最后修改:2020 年 11 月 08 日 09 : 54 AM
如果觉得我的文章对你有用,请随意赞赏