老板让读的书 Deep Learning - Ian Goodfellow,从第二章开始随便记点笔记。

2.1 Scalars, Vectors, Matrices and Tensors

  • 标量、向量、矩阵
  • 张量:超过两维的数组。
  • 矩阵的转置
  • 广播:$\pmb{C}=\pmb{A}+\pmb{b}$ ,其中 $C_{i,j}=A_{i,j}+B_{i,j}$ 。

2.2 Multiplying Matrices and Vectors

  • 矩阵乘积: $\pmb{C}=\pmb{AB}$ ,具体为 $C_{i,j}=\sum\limits_k A_{i,k}B_{k,j}$ 。

    • 满足分配律、结合律,不满足交换律。
    • $(\pmb{AB})^{\mathrm{T}}=\pmb{B}^{\mathrm{T}} \pmb{A}{\mathrm{T}}$
  • 元素对应乘积: $\pmb{A} \odot \pmb{B}$ 。
  • 点积:两个维数相同的向量 $\pmb{x}$ 和 $\pmb{y}$ 的点积等价于矩阵乘积 $\pmb{x}^{\mathrm{T}}\pmb{y}$ 。

2.3 Identity and Inverse Matrices

  • 单位矩阵 $\pmb{I}_n$
  • 逆矩阵:$\pmb{A}^{-1}A=\pmb{I}_n$
  • 对于 $\pmb{Ax}=\pmb{b}$ ,只要矩阵 $\pmb{A}$ 可逆,就可以得出 $\pmb{x}=\pmb{A}^{\mathrm{-1}}\pmb{b}$ 。

2.4 Linear Dependence and Span

  • 线性组合: $\sum\limits_i c_i\pmb{v}^{(1)}$ 。
  • 生成子空间:向量线性组合后能到达的点的集合。
  • 齐次方程组 $\pmb{Ax}=\pmb{0}$ 求解:$\pmb{A}$ 是一组向量,$\pmb{x}$ 要对这些向量进行某种组合,最终组成零向量。

    • 显然在任何情况下,零向量一定是解
    • $rank(\pmb{A})<n$ 时,有非零解,其中 $n$ 为未知数个数

      • 解法:由 $n-r(A)$ 个线性无关的解向量组成基础解系。例如:
      • 理解:在 $r(\pmb{A})$ 维空间中,除了 $r(\pmb{A})$ 个基向量,有 $n-r(\pmb{A})$ 个向量多出来了。而 $r(\pmb{A})$ 个基向量足以长成 $r(\pmb{A})$ 维空间,所以多余的 $n-r(\pmb{A})$ 个向量都可以由基向量表示。自然,基向量也可以组成它们构成的向量的反向量,所以可以出现 $\pmb{A}\pmb{x}=\pmb{0}$。所以要解出 $\pmb{x}$ ,思路可以变换为,对于那多出的 $n-r(\pmb{A})$ 个向量,我们需要用 $r(\pmb{A})$ 个基向量来抵消它们。在上例中,对于 $x_4$ 与 $x_5$ 的线性组合 $k_1x_4+k_2x_5$,我们都必须要有对应的 $x_1$ 、 $x_2$ 、 $x_3$ 来抵消它们,所以求出通解如上。
  • 非齐次方程组 $\pmb{Ax}=\pmb{b}$:$A$ 是一组向量,$x$ 要对这些向量进行某种组合,最终组成 $b$ 向量。

    • $r(\pmb{A})<r(\pmb{A|b})$ 时,无解。这里 $\pmb{A|b}$ 是增广矩阵。其实增广矩阵的用途只不过是将二者的维度放在一起比较,避免了分类讨论的麻烦。只要 $\pmb{A}$ 的维度比 $\pmb{A|b}$ 小,是不可能在 $r(\pmb{A})$ 的空间中表示出 $\pmb{b}$ 的。例如: $\left [ \begin{array}{c:c}\begin{matrix}1&0&0&3&2\\0&1&1&-2&-3\\0&0&1&1&3\\0&0&0&0&0\end{matrix}& \begin{matrix}1\\2\\3\\4\end{matrix}\end{array} \right ]$ 显然是无解的。
    • $r(\pmb{A})=r(\pmb{A|b})$ 时,有解。

      • $r(\pmb{A})=r(\pmb{A|b})=n$ 时,有唯一解。因为在 $n$ 维空间中,表示一个 $n$ 维向量的方法一定是唯一的。具体解法可以将矩阵 $\pmb{A|b}$ 化为行最简就可以得出;或者采用逆矩阵 $\pmb{x}=\pmb{A^{-1}b}$,这种情况下 $\pmb{A}$ 一定是方阵且可逆。
      • $r(\pmb{A})=r(\pmb{A|b})<n$ 时,有无穷多解。这和刚才的思路是一样的,只不过是在抵消掉多余向量的基础上,需要拼出一个特解。所以解法如下,盗一下rgg的图。

2.5 Norms

  • $L^p$ 范数:$||\pmb{x}||_p=(\sum\limits_i|x_i|^p)^{\frac{1}{p}}$ 。

    • squared $L^2$ 范数对于 $x_i$ 的导数只取决于 $x_i$ ,而 $L^2$ 范数对于 $x_i$ 的导数取决于整个 $\pmb{x}$。
    • squared $L^2$ 范数在原点处收敛较慢,所以当需要区分 $0$ 和非 $0$ 时,会采用 $L^1$ 范数。
    • $L^0$ 范数的说法是不严谨的,一般会用 $L^1$ 范数来替代非零值的数量。

      • 不太理解,师兄的解释:
        “这个问题理论上是陶哲轩证明的, 实际上是1范数是0范数的最优凸逼近.举个例子 比如说 f(x) = 1/2(x-1)^2 + ||x||, 第二项这个范数如果是2, 也就是x^2, 那么f(x)的最小值在 x = 1/3处取到. 如果范数是1, 也就是|x|, 那么f(x)的最小值在x=0处取到. 同样考虑f(x)+||x||, 如果我们希望稀疏解, 就是x= 0 处 f(x)+||x||能够取极小值, 如果是2-范数, x^2的在0处的导数是 2*0, 那么就是f'(x)+2x, f'(x)就是f的导数, 此时必须要求f'(0)+2*0 = 0, 才能取到最小值. 也就是f'(0) = 0. 这你应该懂的吧~但如果是1-范数, 此时|x|的在0处导数是一个集合[-1,1], 因此只需要求f'(0) 属于[-1,1], 即可取到最小值, 可以看到这时候更容易满足条件. 因此只需f'(0)属于一个集合,而不是等于0.”
  • 最大范数( $L^{\infty}$ ):$||\pmb{x}||_{\infty}=\max\limits_i |x_i|$ 。
  • Frobenius 范数: $||\pmb{A}||_F=\sqrt{\sum\limits_{i,j}A_{i,j}^2}$ 。

2.6 Special Kinds of Matrices and Vectors

  • 对角矩阵

    • 对角矩阵的乘法:$\mathrm{diag}(\pmb{v})\pmb{x}=\pmb{v}\odot \pmb{x}$ 。
    • 对角矩阵的逆:$\mathrm{diag}(\pmb{v})^{-1}=\mathrm{diag}([1/v_1,\dots,1/v_n]^\mathrm{T})$ 。
  • 对称矩阵:$\pmb{A}=\pmb{A}^{\mathrm{T}}$
  • 正交矩阵

    • 各行(列)是单位向量且两两正交
    • 可以理解为坐标轴
    • 例如:正交矩阵 $\pmb{A}=\begin{bmatrix}0&1&0\\1&0&0\\0&0&1\end{bmatrix}$ ,向量 $\pmb{x}=\begin{bmatrix}1\\2\\3\end{bmatrix}$ ,那么 $\pmb{Ab}=\begin{bmatrix}2\\1\\3\end{bmatrix}$ 。意义就是对于原向量 $\pmb{b}$ ,将其坐标轴进行变换, $x$ 轴变为 $(0,1,0)$ , $y$ 轴变为 $(1,0,0)$ 。在新的坐标轴中,新向量 $\pmb{b'}=[2,1,3]^T$ 。

2.7 Eigendecomposition

  • 特征值和特征向量: $\pmb{Av}=\lambda \pmb{v}$ 。特征向量是对应的线性变换 $A$ 中保持方向不变的向量, $\lambda$ 是该向量在其方向上的数值改变。
  • 特征分解:

    • $A=\pmb{V}\mathrm{diag}(\pmb{\lambda})\pmb{V}^{-1}$ ,其中 $\pmb{V}$ 表示从原有的坐标系转换到由特征向量作为基向量的坐标系中。一般可以利用此式计算 $\pmb{A}^n$ 。
    • 特别地,对于实对称矩阵 $\pmb{A}$ 有 $\pmb{A}=\pmb{Q}\pmb{\Lambda}\pmb{Q}^\mathrm{T}$ 。

      • 可以证明的两点有:①实对称矩阵的特征值为实数;②实对称矩阵的特征向量均正交。证明过程参考 矩阵对角化与奇异值分解 的2.1部分。
      • 我另外思考的一点:为什么正交化还不够,还需要单位化。目前得出的结论是:正交矩阵有许多性质,为了凑成正交矩阵,需要同时满足正交化和单位化……
      • 对于函数 $f(\pmb{x})=\pmb{x^\mathrm{T}Ax}$ ,满足 $||\pmb{x}||_2=1$ 。输入的 $\pmb{x}$ 为特征向量时, $f(\pmb{x})$ 输出对应的特征值。

2.8 Singular Value Decomposition

  • 当一个矩阵不是方阵或者不能特征分解的时候,可以进行奇异值分解代替。
  • 公式: $\pmb{A}=\pmb{UDV}^\mathrm{T}$ ,其中 $\pmb{A}$ 和 $\pmb{D}$ 是$m \times n$ 的矩阵,$U$ 和 $D$ 分别是 $m \times m$ 和 $n \times n$ 的矩阵,并且都是正交矩阵。
  • 性质:实对称矩阵 $\pmb{AA}^\mathrm{T}=\pmb{U}(\pmb{DD}^\mathrm{T})\pmb{U}^T$ ,对于 $\pmb{A}^\mathrm{T}\pmb{A}$ 亦然。
  • 理解:我觉得这和特征分解本质上是一样的……都是同样一个向量,在不同坐标系之间的表示转换。

2.9 The Moore-Penrose Pseudoinverse

  • 当 $A$ 不可逆时,如何解 $\pmb{Ax}=\pmb{y}$ 。类似地,可以求一个 $\pmb{x}=\pmb{By}$。
  • Moore-Penrose 伪逆矩阵定义: $\pmb{A}^+=\lim\limits_{N\searrow0}(\pmb{A}^\mathrm{T}\pmb{A}+\alpha I)^{-1}\pmb{A}^\mathrm{T}$ ,这里那个奇奇怪怪的箭头代表单调递减趋近。

    • 最小二乘法:对于问题的定义可以参考 最小二乘法的本质是什么? ,计算推导过程可以参考 最小二乘法--多特征(矩阵形式)
    • 通过最小二乘法的计算,我们可以得出 $\pmb{w}={(\pmb{x}^\mathrm{T}\pmb{x})}^{-1}{\pmb{x}}^\mathrm{T}y$ 。可以看出和伪逆矩阵的定义很类似,但是区别在哪里呢……于是我问了师兄这个弱智问题。。解答:
      “如果A^TA可逆, 那么我们有A^{-1} = (A^TA)^{-1} A^T, 对吧? 但现在A^TA 是正半定, 意味着每一个特征值都是非负的, 而如果可逆 相当于每一个特征值都是正的. 所以加上一个alpha的扰动 就是希望把每一个特征值变正. 这样就可以求逆了对不, 我们把极限情况下的alpha得到的这个就称为伪逆.”
  • Moore-Penrose 伪逆矩阵计算:采用 $\pmb{A}^+=\pmb{VD}^+\pmb{U}^\mathrm{T}$ ,从几何上理解,这的确就是 $\pmb{A}=\pmb{UDV}^\mathrm{T}$ 的逆过程。

2.10 The Trace Operator

  • $||A||_F=\sqrt{\mathrm{Tr}(\pmb{AA}^\mathrm{T})}=\sqrt{\sum_{i,j}A_{i,j}^2}$
  • $\mathrm{Tr}(\prod_{i=1}^n\pmb{F}^{(i)})=\mathrm{Tr}(\pmb{F}^{(n)}\prod_{i=1}^{n-1}\pmb{F}^{(i)})$

2.11 The Determinant

  • 记作 $\mathrm{det}(\pmb{A})$ 。
  • 行列式等于所有特征值的乘积。
  • 行列式的绝对值用于衡量矩阵乘法后空间扩大或缩小的量。

2.12 Example: Principal Components Analysis

最后修改:2020 年 11 月 26 日 02 : 52 PM
如果觉得我的文章对你有用,请随意赞赏