Illuminum

向量与矩阵微分

最基本的微分是建立在一元函数上的。对于函数 $𝑓 (𝑥) : ℝ \to ℝ$ ，我们有导数的定义：

𝑓 (𝑥 + ℎ) = 𝑓 (𝑥) + 𝑓^{'} (𝑥) ℎ + 𝑜 (ℎ)

对于一元函数，我们可以将 $𝑓^{'}$ 看作是一个标量，但这种处理绝非平凡的。处理多元函数时，更恰当的理解方式应当是将微分视作一个描述函数误差项的线性映射。例如，对于 $𝑓 (𝑥) : ℝ^{𝑛} \to ℝ$ ，我们有

𝑓 (𝑥 + ℎ) = 𝑓 (𝑥) + 𝐷_{𝑥} 𝑓 (ℎ) + 𝑜 (‖ ℎ ‖)

这里面的 $𝐷_{𝑥} 𝑓 : ℝ^{𝑛} \to ℝ$ 是一个线性映射，称为 $𝑓$ 在 $𝑥$ 处的微分。根据 Riesz 表示定理，任何从 $ℝ^{𝑛}$ 到 $ℝ$ 的线性映射都可以表示为内积的形式，因此在标准的内积定义下，我们可以找到一个向量 $𝛁_{𝑥} 𝑓 \in ℝ^{𝑛}$ ，使得对于任意 $ℎ \in ℝ^{𝑛}$ ，都有

𝐷_{𝑥} 𝑓 (ℎ) = ⟨ 𝛁_{𝑥} 𝑓, ℎ ⟩ = {(𝛁_{𝑥} 𝑓)}^{𝑇} ℎ

这里面的 $𝛁_{𝑥} 𝑓$ 定义为该多元函数的梯度。在这种定义下，梯度的每个分量都对应着函数对该分量的偏导数。这也被称为一阶微分的形式不变性

d 𝑓 = \sum_{𝑖} \frac{𝜕 𝑓}{𝜕 𝑥_{𝑖}} d 𝑥_{𝑖}

这种思路可以推广到向量值函数 $𝑓 (𝑥) : ℝ^{𝑛} \to ℝ^{𝑚}$ 。在这种情况下，微分 $𝐷_{𝑥} 𝑓 : ℝ^{𝑛} \to ℝ^{𝑚}$ 仍然是一个线性映射，因此可以表示为一个矩阵的形式。我们定义雅可比矩阵 $𝐽_{𝑥} 𝑓 \in ℝ^{{𝑚 \times 𝑛}}$ ，使得对于任意 $ℎ \in ℝ^{𝑛}$ ，都有

\frac{𝜕 𝒇}{𝜕 𝒙} = \frac{𝜕 (𝑓_{1}, 𝑓_{2}, \dots, 𝑓_{𝑚})}{𝜕 (𝑥_{1}, 𝑥_{2}, \dots, 𝑥_{𝑛})} = 𝐷_{𝑥} 𝑓 (ℎ) = 𝐽_{𝑥} 𝑓 \cdot ℎ

那么根据以上的推导我们可以得出 Jacobian 矩阵的组成为

𝐽_{𝑥} 𝑓 = (\begin{matrix} 𝛁_{𝑥} 𝑓_{1}^{𝑇} \\ 𝛁_{𝑥} 𝑓_{2}^{𝑇} \\ ⋮ \\ 𝛁_{𝑥} 𝑓_{𝑚}^{𝑇} \end{matrix})

这里面的 $𝑓_{𝑖}$ 是 $𝑓$ 的第 $𝑖$ 个分量函数。以上这些应当都是多元微积分中应当熟悉的部分，并不构成理解上的难度。但是神经网络的处理中往往需要遇到矩阵函数，即输入/输出或者二者均为矩阵的函数。对于矩阵函数，机器学习领域中的一个惯例时对矩阵微分采用所谓分母布局（denominator layout），也就是分母决定列向量形式，分子决定行向量形式。¹¹ 比如先前提到的梯度则为分母布局、其转置（Jacobian）可以视作分子布局例如，对于矩阵函数 $𝑓 (𝑋) : ℝ^{𝑝 \times 𝑞} \to ℝ$ ，可以定义其梯度 $𝛁_{𝑋} 𝑓 \in ℝ^{𝑝 \times 𝑞}$ 满足

{(𝛁_{𝑋} 𝑓)}_{ij} = \frac{𝜕 𝑓}{𝜕 𝑋_{ij}}

，使得对于任意矩阵 $𝐻 \in ℝ^{𝑝 \times 𝑞}$ ，都有

𝐷_{𝑋} 𝑓 (𝐻) = {⟨ 𝛁_{𝑋} 𝑓, 𝐻 ⟩}_{𝐹} = trace ({(𝛁_{𝑋} 𝑓)}^{𝑇} 𝐻)

这里面的 ${⟨ ., . ⟩}_{𝐹}$ 是 Frobenius 内积，定义为矩阵对应元素乘积之和。而更广义地，对于矩阵函数 $𝑓 (𝑋) : ℝ^{𝑝 \times 𝑞} \to ℝ^{𝑚}$ ，可以定义其微分满足

𝑓 (𝑋 + 𝐻) = 𝑓 (𝑋) + 𝐽 (𝑋) \cdot 𝐻 + 𝑜 (‖ 𝐻 ‖_{𝐹})

根据先前定义，对应的 Jacobian 矩阵 $𝐽 (𝑋) \in ℝ^{𝑚 \times 𝑝 \times 𝑞}$ 应当是一个三维张量²² 这里切换回了分子布局，主要是张量采用什么布局其实无所谓，其关于矩阵 $𝑋$ 的线性映射定义为

{𝐽 (𝑋)}_{ijk} = \frac{𝜕 𝑓_{𝑖}}{𝜕 𝑋_{jk}} 𝛿_{𝑖} = {(𝐽 \cdot 𝐻)}_{𝑖} = \sum_{𝑗 = 1}^{𝑝} \sum_{𝑘 = 1}^{𝑞} 𝐽_{ijk} 𝐻_{jk}

常见矩阵函数的微分

在理解了矩阵微分的定义后，我们可以推导一些常见矩阵函数的微分形式，这些形式在神经网络的反向传播中会频繁使用。以下微分如果没有特殊说明，我们考虑的都是标准的数学定义上的微分，也就是 Jacobi 矩阵（分子布局）。

$𝒛 = 𝑊 𝒙$

我们想求得 $\frac{𝜕 𝒛}{𝜕 𝒙}$ 。这是一个 $ℝ^{𝑛} \to ℝ^{𝑚}$ 的函数，则其 Jacobian 矩阵形状为 $ℝ^{𝑚 \times 𝑛}$ 。根据定义，我们有

{\frac{𝜕 𝒛}{𝜕 𝒙}}_{ij} = \frac{𝜕 𝑧_{𝑖}}{𝜕 𝑥_{𝑗}} = \frac{𝜕 \sum_{𝑘 = 1}^{𝑛} 𝑊_{ik} 𝑥_{𝑘}}{𝜕 𝑥_{𝑗}} = 𝑊_{ij}

因此

\frac{𝜕 𝒛}{𝜕 𝒙} = 𝑊

$𝒛 = 𝒙 𝑊$

这里 $𝒛, 𝒙$ 都是行向量。我们想求得 $\frac{𝜕 𝒛}{𝜕 𝒙}$ 。这是一个 $ℝ^{𝑛} \to ℝ^{𝑚}$ 的函数，则其 Jacobian 矩阵形状为 $ℝ^{𝑚 \times 𝑛}$ 。类似的推导我们可以得到这里也可以注意到 $𝑧^{𝑇} = 𝑊^{𝑇} 𝑥^{𝑇}$ 进而转化为前一种情况

\frac{𝜕 𝒛}{𝜕 𝒙} = 𝑊^{𝑇}

逐元素函数 $𝒛 = 𝑓 (𝒙)$

这里 $𝑓 : ℝ \to ℝ$ 是一个标量函数，逐元素作用在向量 $𝒙$ 上。我们想求得 $\frac{𝜕 𝒛}{𝜕 𝒙}$ 。这是一个 $ℝ^{𝑛} \to ℝ^{𝑛}$ 的函数，则其 Jacobian 矩阵形状为 $ℝ^{𝑛 \times 𝑛}$ 。根据定义，我们有

{\frac{𝜕 𝒛}{𝜕 𝒙}}_{ij} = \frac{𝜕 𝑧_{𝑖}}{𝜕 𝑥_{𝑗}} = \frac{𝜕 𝑓 (𝑥_{𝑖})}{𝜕 𝑥_{𝑗}} = {\begin{cases} 𝑓^{'} (𝑥_{𝑖}) & if 𝑖 = 𝑗 \\ 0 & if 𝑖 \neq 𝑗 \end{cases}

因此有

\frac{𝜕 𝒛}{𝜕 𝒙} = (\begin{matrix} 𝑓^{'} (𝑥_{1}) \\ 𝑓^{'} (𝑥_{2}) \\ ⋱ \\ 𝑓^{'} (𝑥_{𝑛}) \end{matrix}) = diag (𝑓^{'} (𝒙))

$𝒛 = 𝑊 𝒙, 𝐽 = 𝐽 (𝑧)$

这里 $𝐽 : ℝ^{𝑚} \to ℝ$ 是一个标量函数，我们想求得 $\frac{𝜕 𝐽}{𝜕 𝑊}$ 的分母布局形式利用分母布局可以直接得到梯度形式，在进行梯度下降时更加方便。由链式法则有

\frac{𝜕 𝐽}{𝜕 𝑊} = \frac{𝜕 𝐽}{𝜕 𝒛} \frac{𝜕 𝒛}{𝜕 𝑊}

这里 $𝐽 = 𝐽 (𝒛)$ 与 $𝑊$ 无关，我们可以先求得 $\frac{𝜕 𝐽}{𝜕 𝒛}$ ，这是一个 $ℝ^{𝑚} \to ℝ$ 的函数，因此根据定义令其梯度为 $𝜹 = 𝛁_{𝑧} 𝐽 \in ℝ^{𝑚}$ 这里用梯度是因为我们约定了分母布局。我们随即分别考虑 $\frac{𝜕 𝒛}{𝜕 𝑊_{ij}}$ ，每个分量是一个 $ℝ \to ℝ^{𝑚}$ 的函数，因此其微分应当是一个简单的向量。根据定义我们有

\begin{matrix} 𝒛_{𝑘} = \sum_{𝑙 = 1}^{𝑚} 𝑊_{kl} 𝒙_{𝑙} \\ {(\frac{𝜕 𝒛}{𝜕 𝑊_{ij}})}_{𝑘} = \frac{𝜕 𝒛_{𝑘}}{𝜕 𝑊_{ij}} = \frac{𝜕 \sum_{𝑙 = 1}^{𝑚} 𝑊_{kl} 𝒙_{𝑙}}{𝜕 𝑊_{ij}} = {\begin{cases} 𝒙_{𝑗} & if 𝑘 = 𝑖 \\ 0 & if 𝑘 \neq 𝑖 \end{cases} \end{matrix}

也就是

\frac{𝜕 𝒛}{𝜕 𝑊_{𝑖 𝑗}} = [\begin{matrix} 0 \\ ⋮ \\ 0 \\ 𝑥_{𝑗} \\ 0 \\ ⋮ \\ 0 \end{matrix}] \leftarrow 𝑖 th element

因此根据链式法则我们有

\frac{𝜕 𝐽}{𝜕 𝑊_{ij}} = 𝜹^{𝑇} \frac{𝜕 𝒛}{𝜕 𝑊_{𝑖 𝑗}} = 𝜹_{𝑖} 𝒙_{𝑗}

因此我们可以得到最终的结果

\frac{𝜕 𝐽}{𝜕 𝑊} = 𝜹 𝒙^{𝑇}

交叉熵损失 $𝐽 = CE (𝒚, \hat{𝒚}), \hat{𝒚} = softmax (𝜽)$

这里 $𝒚$ 是真实标签， $\hat{𝒚}$ 是预测标签， $𝜽$ 是模型的线性输出。我们想求得 $\frac{𝜕 𝐽}{𝜕 𝜽}$ 。根据链式法则有

\frac{𝜕 𝐽}{𝜕 𝜽} = \frac{𝜕 𝐽}{𝜕 \hat{𝒚}} \frac{𝜕 \hat{𝒚}}{𝜕 𝜽}

\begin{matrix} 𝐽 = - \sum_{𝑖 = 1}^{𝑚} 𝒚_{𝑖} log {\hat{𝒚}}_{𝑖} \\ {(\frac{𝜕 𝐽}{𝜕 \hat{𝒚}})}_{𝑖} = \frac{𝜕 𝐽}{𝜕 {\hat{𝒚}}_{𝑖}} = - \frac{𝒚_{𝑖}}{{\hat{𝒚}}_{𝑖}} \end{matrix}

\begin{matrix} {\hat{𝒚}}_{𝑖} = \frac{exp (𝜽_{𝑖})}{\sum_{𝑗 = 1}^{𝑚} exp (𝜽_{𝑗})} \\ {(\frac{𝜕 \hat{𝒚}}{𝜕 𝜽})}_{ij} = \frac{𝜕 {\hat{𝒚}}_{𝑖}}{𝜕 𝜽_{𝑗}} = {\begin{cases} {\hat{𝒚}}_{𝑖} (1 - {\hat{𝒚}}_{𝑖}) & if 𝑖 = 𝑗 \\ - {\hat{𝒚}}_{𝑖} {\hat{𝒚}}_{𝑗} & if 𝑖 \neq 𝑗 \end{cases} \end{matrix}

\begin{aligned} {(\frac{𝜕 𝐽}{𝜕 𝜽})}_{𝑖} & = \sum_{𝑗 = 1}^{𝑚} {\frac{𝜕 𝐽}{𝜕 \hat{𝒚}}}_{𝑗} \frac{𝜕 {\hat{𝒚}}_{𝑗}}{𝜕 𝜽_{𝑖}} \\ = \sum_{𝑗 = 1}^{𝑚} (- \frac{𝒚_{𝑗}}{{\hat{𝒚}}_{𝑗}}) \frac{𝜕 {\hat{𝒚}}_{𝑗}}{𝜕 𝜽_{𝑖}} \\ = - 𝒚_{𝑖} (1 - {\hat{𝒚}}_{𝑖}) + \sum_{𝑗 \neq 𝑖} 𝒚_{𝑗} {\hat{𝒚}}_{𝑖} \\ = - 𝒚_{𝑖} + {\hat{𝒚}}_{𝑖} \sum_{𝑗 = 1}^{𝑚} 𝒚_{𝑗} \\ = {\hat{𝒚}}_{𝑖} - 𝒚_{𝑖} \end{aligned}

因此我们最终得到

\frac{𝜕 𝐽}{𝜕 𝜽} = \hat{𝒚} - 𝒚 or 𝛁_{𝜽} 𝐽 = {(\hat{𝒚} - 𝒚)}^{𝑇}

向量与矩阵微分

常见矩阵函数的微分

𝒛=𝑊𝒙

𝒛=𝒙𝑊

𝒛=𝑊𝒙,𝐽=𝐽(𝑧)

交叉熵损失 𝐽=CE(𝒚,𝒚̂),𝒚̂=softmax(𝜽)

$𝒛 = 𝑊 𝒙$

$𝒛 = 𝒙 𝑊$

$𝒛 = 𝑊 𝒙, 𝐽 = 𝐽 (𝑧)$

交叉熵损失 $𝐽 = CE (𝒚, \hat{𝒚}), \hat{𝒚} = softmax (𝜽)$