Discussion to Differetials and Derivatives
我以前一直没怎么弄明白微分,而且现在越来越多的接触到矩阵微分,经常碰到定义上和计算上的问题,所以我们要在这里重新介绍微分那一套。特别的,比较严格的理论(主要是微分的某些内蕴性质)恐怕要在微分几何上才会遇到,因此我们暂时不会涉及这一部分。本文的主线是一般流形上的一阶微分,并以矩阵空间为例。
微分
各位肯定多少接触过微分这一概念——即使是最基本的本科高等数学也会引入微分。具体的,回忆一维导数的定义,对于连续函数
,其导数定义为瞬时变化率 一般的,对于高维标量函数 ,我们总是可以定义方向导数,即对于单位方向向量 ,定义沿方向 的方向导数 为 总的来说,导数总是容易定义的,并且总是一维的,因其表达为函数沿空间中某一方向变动时的瞬时变化率。而微分则表达为局部线性化,低年级分析教材一般只考虑一般的情况,即对于 ,其在 处的微分写作 该式可直接由一维导数的定义得到,因此看起来并没有任何本质新的内容。实际上中文低年级分析教材对于微分的叙述浅尝辄止,并没有特别清楚的介绍,以至于大部分人恐怕分不清导数和微分的本质区别。这实际上是一维的局限性——一维欧式空间上函数的导数和微分恰好表达为相同的形式,而在更高维的空间中,微分明显表达为局部线性化,是一个线性映射,而区别于表达为沿方向变化率的导数。而在微分存在时,方向导数常常写作梯度与方向向量的内积。 综上,一个重要的看法是,导数先于微分存在,而微分先于梯度存在。以下我们将沿着这一脉络,尽量严格的介绍一阶微分的原理。
微分的定义
现在考虑
维标量场 ,我们希望对其在 处做微分,本质上是做局部线性化。即我们希望找到某一线性映射 ,使其刻画了 在 附近的一阶变化量。形式化的 显然,若这样的 存在,则其必须是唯一的。我们将这样的 记作 ,其中 表示 在 处的微分。现在任取 的一组基 ,考虑 注意以上利用了微分的线性性。如果我们将基 取作 的坐标轴,那么按定义有 这便给出了线性映射的具体表达 也就是我们熟悉的高维微分的形式。更一般的,对于定义域(实际上是一微分流形)
,以及函数 ,回忆我们在《等式约束优化问题的拉格朗日条件》一文中定义过 在 处的切空间,记作 ,是为 在 处全体可行方向构成的线性空间。当然对于一般的 上的函数,切空间自然总是 ;只有当 定义在 的某一低维流形上时,切空间才会呈现出特别的结构。此时, 在 处的微分定义为线性映射 ,使得任取经过 的路径 ,对于速度向量 ,均有 采取类似的方法,假定切空间是 维的,则任取 的一组单位正交基 ,做分解 按定义,显然 恰为 在 处沿方向 的导数,但现在我们采取更优雅的看法。具体的,对于微分 ,其是一个 上的线性泛函。1现在取 的对偶基,记作 。对偶基本身是线性泛函,其作用于 ,返回 在 上的投影。因此有 这样便得到 注意到 实际上与 无关,而只与切空间 相关,因此对于任意定义在流形 上的函数 ,其在 处的微分是一个线性泛函,并且落在 的张成中。由此,定义流形 在 处的余切空间 为全体定义在 上的可微函数在 处的微分所构成的集合,亦为切空间的对偶基 的张成。如果考虑最简单的情况,此时 ,那么便得到了我们熟悉的全微分的形式 其中 为坐标轴的对偶基,恰对应函数 的微分,亦对应方向向量 到坐标轴 的投影泛函。以上,我们其实是从微分流形的观点来看待微分的,因为这样最能体现微分的本质。同时应注意到切空间和余切空间实际上只依赖于微分流形
,而不依赖于具体的函数 。
微分的性质
- 我们期待微分具备一些基本的性质,例如线性性和莱布尼茨律,以方便计算。以下我们将验证这两条性质。
微分的线性性
- 对于流形
上的标量函数 ,以及任意 ,取任意路径 ,记 ,则 分别取 的微分,则显然有 注意到微分是唯一的,这表明
微分的莱布尼茨律
- 对于流形
上的标量函数 ,考虑 由导数的莱布尼茨律,立刻得到
梯度
低年级分析教材一般把梯度简单的定义为
对于各分量的偏导所构成的向量,并说明其恰对应函数值增长最快的方向,而方向导数则可以表达为方向向量与梯度的内积。实际上导数这一概念是不依赖于微分的,我们可以轻易的举出例子,使得即使各个分量的偏导全部存在,函数也不可微。然而梯度这一概念却是依赖于微分的,例如通过梯度的内积得到导数这一操作恰对应微分的表达式 。具体的,对于函数 ,定义其在 处的梯度,记作 ,使得对于任意 ,有 其中 为一 上的内积。请注意,此处的内积不一定为欧式内积,而定义微分处所用到的范数也不一定为该内积所诱导的范数。对于有限维欧式空间,熟知任意范数在常数意义上是等价的,这意味着无论选择何种范数,微分的定义都是一致的。但此处内积的选择却会影响梯度的结构,然而无论选择何种内积,梯度都是可定义的。具体的,容易看出,对于 上的任意内积 ,必然存在正定阵 ,使得 那么由微分的表达式 ,应有 其中 代表欧式内积诱导的梯度,而 为内积 诱导的梯度。考虑到 是任选的,应有 这一梯度便满足了“用内积进行求值”的要求。并且在该内积诱导出的范数度量下,梯度恰好是上升最快的方向,这一点容易由 Cauchy-Schwartz 验证。对于任意的单位方向向量 ,考虑 其取等当且仅当 与 平行,并且在 与 同向时取得最大值。在实践中我们一般选取欧式内积,这主要是因为该内积下梯度的表达最为自然,而且其恰好反映经典欧式度量下函数上升最快的方向。特别值得一提的是,观察以上对于微分的定义,可以看出,我们的讨论总是在切空间
关于基 的坐标下进行的。这样的看法最为自然,因为实际上我们只要求函数 在 上有定义。然而在一般的情况下,我们会希望写出 在全空间的坐标轴尺度下的梯度。如果 在 上有定义,并且是可微的,那么容易验证, 在 处的梯度恰为 上的梯度到 的投影。而如果 只在 上有定义,标准的看法可能是将 可微的延拓到 上;但此处我们采取一种更简便的看法。具体的,在欧氏内积的设定下,我们考虑
在基 上的梯度,其恰为 对于这一组基的各方向导数,记作 。容易看出,如果仍然按照梯度的定义进行,那么 上任意投影到 为 的向量都服从切空间中梯度的定义。然而由于我们期望梯度代表了 上升最快的方向,额外令 ,这样便规定了唯一的全空间梯度,坐标为
矩阵微分
- 在尽量严格的定义过一阶微分以后,现在我们要看一些具体的例子,即矩阵空间上的微分。诚然,矩阵空间仍归于一般的高维欧氏空间,然而我们之所以特别关注这一特例,是因为机器学习中常常需要操作矩阵微分,而我们不希望将矩阵强行向量化,因为这会破坏原先的记号体系,带来操作上的难处。
微分的定义
- 具体的,考虑矩阵空间
上的可微流形 ,对于 ,取任意通过 的路径 。注意定义流形也需要范数,但此处的范数怎么取是无所谓的,我们此处取作 Frobenius 函数。令 ,则对于 上的标量函数 ,微分定义为 类似的,可以在流形 上定义切空间和余切空间,这与一般 维欧氏空间并无区别,因此此处就不赘述了。
梯度的定义
- 对于矩阵空间而言,比起微分,梯度的定义有一些特别的门道。由以上的讨论,我们知道不同于流形上的范数,梯度的内积会影响局部的几何结构,因此我们希望选取一个合适的内积,使其可以反映出我们所希望的欧氏结构,而且在记号上方便。为此,我们选择
Frobenius 内积。对于任意
,定义 这恰好对应矩阵向量化的欧氏内积。现在令 ,取标准坐标基 ,我们考察这一内积下的梯度表达 定义梯度 那么直接得到 这样矩阵空间的梯度便也得到了漂亮的写法。
梯度的计算
- 大家可能会觉得梯度的计算没什么好说的,按照线性性和莱布尼茨律来做就是了。但实际上有一个微妙的问题是,莱布尼茨律本质上是微分的性质,而不是梯度的性质。在标量或者向量的情况下,这一问题很少遇到,因为梯度的表达在形式上和微分差不多。但是在矩阵空间下,求梯度时可能需要借助微分的看法。具体的,考虑一个简单的例子,对于对角阵
,矩阵 与向量 ,我们希望计算关于 的梯度 现在考虑微分,按照线性性和莱布尼茨律 注意到微分是线性泛函,因此对其取迹,得到同一映射 按照上一节对于矩阵梯度的定义,读出上式的梯度为
线性泛函是一个线性映射,其强调的是值域为标量。当然如此看来很多函数都可以叫泛函,此处这么叫主要是为了区分切空间(由方向向量
构成)和余切空间(由 维 的线性映射构成)中的对象。↩︎
- 标题: Discussion to Differetials and Derivatives
- 作者: RPChe_
- 创建于 : 2026-06-15 00:00:00
- 更新于 : 2026-06-19 02:55:51
- 链接: https://rpche-6626.github.io/2026/06/15/ML/dif/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。