• 11.2. 数学基础
    • 11.2.1. 线性代数
      • 11.2.1.1. 向量
      • 11.2.1.2. 矩阵
      • 11.2.1.3. 运算
      • 11.2.1.4. 范数
      • 11.2.1.5. 特征向量和特征值
    • 11.2.2. 微分
      • 11.2.2.1. 导数和微分
      • 11.2.2.2. 泰勒展开
      • 11.2.2.3. 偏导数
      • 11.2.2.4. 梯度
      • 11.2.2.5. 海森矩阵
    • 11.2.3. 概率
      • 11.2.3.1. 条件概率
      • 11.2.3.2. 期望
      • 11.2.3.3. 均匀分布
    • 11.2.4. 小结
    • 11.2.5. 练习

    11.2. 数学基础

    本节总结了本书中涉及的有关线性代数、微分和概率的基础知识。为避免赘述本书未涉及的数学背景知识,本节中的少数定义稍有简化。

    11.2.1. 线性代数

    下面分别概括了向量、矩阵、运算、范数、特征向量和特征值的概念。

    11.2.1.1. 向量

    本书中的向量指的是列向量。一个

    11.2. 数学基础 - 图1 维向量 11.2. 数学基础 - 图2 的表达式可写成

    11.2. 数学基础 - 图3

    其中

    11.2. 数学基础 - 图4 是向量的元素。我们将各元素均为实数的 11.2. 数学基础 - 图5 维向量 11.2. 数学基础 - 图6 记作 11.2. 数学基础 - 图711.2. 数学基础 - 图8

    11.2.1.2. 矩阵

    一个

    11.2. 数学基础 - 图911.2. 数学基础 - 图10 列矩阵的表达式可写成

    11.2. 数学基础 - 图11

    其中

    11.2. 数学基础 - 图12 是矩阵 11.2. 数学基础 - 图13 中第 11.2. 数学基础 - 图14 行第 11.2. 数学基础 - 图15 列的元素( 11.2. 数学基础 - 图16 )。我们将各元素均为实数的 11.2. 数学基础 - 图1711.2. 数学基础 - 图18 列矩阵 11.2. 数学基础 - 图19 记作 11.2. 数学基础 - 图20 。不难发现,向量是特殊的矩阵。

    11.2.1.3. 运算

    11.2. 数学基础 - 图21 维向量 11.2. 数学基础 - 图22 中的元素为 11.2. 数学基础 - 图2311.2. 数学基础 - 图24 维向量 11.2. 数学基础 - 图25 中的元素为 11.2. 数学基础 - 图26 。向量 11.2. 数学基础 - 图2711.2. 数学基础 - 图28 的点乘(内积)是一个标量:

    11.2. 数学基础 - 图29

    设两个

    11.2. 数学基础 - 图3011.2. 数学基础 - 图31 列矩阵

    11.2. 数学基础 - 图32

    矩阵

    11.2. 数学基础 - 图33 的转置是一个 11.2. 数学基础 - 图3411.2. 数学基础 - 图35 列矩阵,它的每一行其实是原矩阵的每一列:

    11.2. 数学基础 - 图36

    两个相同形状的矩阵的加法是将两个矩阵按元素做加法:

    11.2. 数学基础 - 图37

    我们使用符号

    11.2. 数学基础 - 图38 表示两个矩阵按元素做乘法的运算:

    11.2. 数学基础 - 图39

    定义一个标量

    11.2. 数学基础 - 图40 。标量与矩阵的乘法也是按元素做乘法的运算:

    11.2. 数学基础 - 图41

    其他诸如标量与矩阵按元素相加、相除等运算与上式中的相乘运算类似。矩阵按元素开根号、取对数等运算也就是对矩阵每个元素开根号、取对数等,并得到和原矩阵形状相同的矩阵。

    矩阵乘法和按元素的乘法不同。设

    11.2. 数学基础 - 图4211.2. 数学基础 - 图4311.2. 数学基础 - 图44 列的矩阵, 11.2. 数学基础 - 图4511.2. 数学基础 - 图4611.2. 数学基础 - 图47 列的矩阵。两个矩阵相乘的结果

    11.2. 数学基础 - 图48

    是一个

    11.2. 数学基础 - 图4911.2. 数学基础 - 图50 列的矩阵,其中第 11.2. 数学基础 - 图51 行第 11.2. 数学基础 - 图52 列( 11.2. 数学基础 - 图53 )的元素为

    11.2. 数学基础 - 图54

    11.2.1.4. 范数

    11.2. 数学基础 - 图55 维向量 11.2. 数学基础 - 图56 中的元素为 11.2. 数学基础 - 图57 。向量 11.2. 数学基础 - 图5811.2. 数学基础 - 图59 范数为

    11.2. 数学基础 - 图60

    例如,

    11.2. 数学基础 - 图6111.2. 数学基础 - 图62 范数是该向量元素绝对值之和:

    11.2. 数学基础 - 图63

    11.2. 数学基础 - 图6411.2. 数学基础 - 图65 范数是该向量元素平方和的平方根:

    11.2. 数学基础 - 图66

    我们通常用

    11.2. 数学基础 - 图67 指代 11.2. 数学基础 - 图68

    11.2. 数学基础 - 图69 是一个 11.2. 数学基础 - 图7011.2. 数学基础 - 图71 列矩阵。矩阵 11.2. 数学基础 - 图72 的Frobenius范数为该矩阵元素平方和的平方根:

    11.2. 数学基础 - 图73

    其中

    11.2. 数学基础 - 图74 为矩阵 11.2. 数学基础 - 图75 在第 11.2. 数学基础 - 图76 行第 11.2. 数学基础 - 图77 列的元素。

    11.2.1.5. 特征向量和特征值

    对于一个

    11.2. 数学基础 - 图7811.2. 数学基础 - 图79 列的矩阵 11.2. 数学基础 - 图80 ,假设有标量 11.2. 数学基础 - 图81 和非零的 11.2. 数学基础 - 图82 维向量 11.2. 数学基础 - 图83 使

    11.2. 数学基础 - 图84

    那么

    11.2. 数学基础 - 图85 是矩阵 11.2. 数学基础 - 图86 的一个特征向量,标量 11.2. 数学基础 - 图8711.2. 数学基础 - 图88 对应的特征值。

    11.2.2. 微分

    我们在这里简要介绍微分的一些基本概念和演算。

    11.2.2.1. 导数和微分

    假设函数

    11.2. 数学基础 - 图89 的输入和输出都是标量。函数 11.2. 数学基础 - 图90 的导数

    11.2. 数学基础 - 图91

    且假定该极限存在。给定

    11.2. 数学基础 - 图92 ,其中 11.2. 数学基础 - 图9311.2. 数学基础 - 图94 分别是函数 11.2. 数学基础 - 图95 的自变量和因变量。以下有关导数和微分的表达式等价:

    11.2. 数学基础 - 图96

    其中符号

    11.2. 数学基础 - 图9711.2. 数学基础 - 图98 也叫微分运算符。常见的微分演算有 11.2. 数学基础 - 图9911.2. 数学基础 - 图100 为常数)、 11.2. 数学基础 - 图10111.2. 数学基础 - 图102 为常数)、 11.2. 数学基础 - 图10311.2. 数学基础 - 图104 等。

    如果函数

    11.2. 数学基础 - 图10511.2. 数学基础 - 图106 都可导,设 11.2. 数学基础 - 图107 为常数,那么

    11.2. 数学基础 - 图108

    如果

    11.2. 数学基础 - 图10911.2. 数学基础 - 图110 都是可导函数,依据链式法则,

    11.2. 数学基础 - 图111

    11.2.2.2. 泰勒展开

    函数

    11.2. 数学基础 - 图112 的泰勒展开式是

    11.2. 数学基础 - 图113

    其中

    11.2. 数学基础 - 图114 为函数 11.2. 数学基础 - 图11511.2. 数学基础 - 图116 阶导数(求 11.2. 数学基础 - 图117 次导数), 11.2. 数学基础 - 图11811.2. 数学基础 - 图119 的阶乘。假设 11.2. 数学基础 - 图120 是一个足够小的数,如果将上式中 11.2. 数学基础 - 图12111.2. 数学基础 - 图122 分别替换成 11.2. 数学基础 - 图12311.2. 数学基础 - 图124 ,可以得到

    11.2. 数学基础 - 图125

    由于

    11.2. 数学基础 - 图126 足够小,上式也可以简化成

    11.2. 数学基础 - 图127

    11.2.2.3. 偏导数

    11.2. 数学基础 - 图128 为一个有 11.2. 数学基础 - 图129 个自变量的函数, 11.2. 数学基础 - 图130 ,它有关第 11.2. 数学基础 - 图131 个变量 11.2. 数学基础 - 图132 的偏导数为

    11.2. 数学基础 - 图133

    以下有关偏导数的表达式等价:

    11.2. 数学基础 - 图134

    为了计算

    11.2. 数学基础 - 图135 ,只需将 11.2. 数学基础 - 图136 视为常数并求 11.2. 数学基础 - 图137 有关 11.2. 数学基础 - 图138 的导数。

    11.2.2.4. 梯度

    假设函数

    11.2. 数学基础 - 图139 的输入是一个 11.2. 数学基础 - 图140 维向量 11.2. 数学基础 - 图141 ,输出是标量。函数 11.2. 数学基础 - 图142 有关 11.2. 数学基础 - 图143 的梯度是一个由 11.2. 数学基础 - 图144 个偏导数组成的向量:

    11.2. 数学基础 - 图145

    为表示简洁,我们有时用

    11.2. 数学基础 - 图146 代替 11.2. 数学基础 - 图147

    假设

    11.2. 数学基础 - 图148 是一个向量,常见的梯度演算包括

    11.2. 数学基础 - 图149

    类似地,假设

    11.2. 数学基础 - 图150 是一个矩阵,那么

    11.2. 数学基础 - 图151

    11.2.2.5. 海森矩阵

    假设函数

    11.2. 数学基础 - 图152 的输入是一个 11.2. 数学基础 - 图153 维向量 11.2. 数学基础 - 图154 ,输出是标量。假定函数 11.2. 数学基础 - 图155 所有的二阶偏导数都存在, 11.2. 数学基础 - 图156 的海森矩阵 11.2. 数学基础 - 图157 是一个 11.2. 数学基础 - 图15811.2. 数学基础 - 图159 列的矩阵:

    11.2. 数学基础 - 图160

    其中二阶偏导数

    11.2. 数学基础 - 图161

    11.2.3. 概率

    最后,我们简要介绍条件概率、期望和均匀分布。

    11.2.3.1. 条件概率

    假设事件

    11.2. 数学基础 - 图162 和事件 11.2. 数学基础 - 图163 的概率分别为 11.2. 数学基础 - 图16411.2. 数学基础 - 图165 ,两个事件同时发生的概率记作 11.2. 数学基础 - 图16611.2. 数学基础 - 图167 。给定事件 11.2. 数学基础 - 图168 ,事件 11.2. 数学基础 - 图169 的条件概率

    11.2. 数学基础 - 图170

    也就是说,

    11.2. 数学基础 - 图171

    当满足

    11.2. 数学基础 - 图172

    时,事件

    11.2. 数学基础 - 图173 和事件 11.2. 数学基础 - 图174 相互独立。

    11.2.3.2. 期望

    离散的随机变量

    11.2. 数学基础 - 图175 的期望(或平均值)为

    11.2. 数学基础 - 图176

    11.2.3.3. 均匀分布

    假设随机变量

    11.2. 数学基础 - 图177 服从 11.2. 数学基础 - 图178 上的均匀分布,即 11.2. 数学基础 - 图179 。随机变量 11.2. 数学基础 - 图18011.2. 数学基础 - 图18111.2. 数学基础 - 图182 之间任意一个数的概率相等。

    11.2.4. 小结

    • 本节总结了本书中涉及的有关线性代数、微分和概率的基础知识。

    11.2.5. 练习

    • 求函数 11.2. 数学基础 - 图183 的梯度。