我以前一直没怎么弄明白微分，而且现在越来越多的接触到矩阵微分，经常碰到定义上和计算上的问题，所以我们要在这里重新介绍微分那一套。特别的，比较严格的理论（主要是微分的某些内蕴性质）恐怕要在微分几何上才会遇到，因此我们暂时不会涉及这一部分。本文的主线是一般流形上的一阶微分，并以矩阵空间为例。

微分

各位肯定多少接触过微分这一概念——即使是最基本的本科高等数学也会引入微分。具体的，回忆一维导数的定义，对于连续函数，其导数定义为瞬时变化率一般的，对于高维标量函数，我们总是可以定义方向导数，即对于单位方向向量，定义沿方向的方向导数为总的来说，导数总是容易定义的，并且总是一维的，因其表达为函数沿空间中某一方向变动时的瞬时变化率。而微分则表达为局部线性化，低年级分析教材一般只考虑一般的情况，即对于，其在处的微分写作该式可直接由一维导数的定义得到，因此看起来并没有任何本质新的内容。实际上中文低年级分析教材对于微分的叙述浅尝辄止，并没有特别清楚的介绍，以至于大部分人恐怕分不清导数和微分的本质区别。这实际上是一维的局限性——一维欧式空间上函数的导数和微分恰好表达为相同的形式，而在更高维的空间中，微分明显表达为局部线性化，是一个线性映射，而区别于表达为沿方向变化率的导数。而在微分存在时，方向导数常常写作梯度与方向向量的内积。

综上，一个重要的看法是，导数先于微分存在，而微分先于梯度存在。以下我们将沿着这一脉络，尽量严格的介绍一阶微分的原理。

微分的定义

现在考虑维标量场，我们希望对其在处做微分，本质上是做局部线性化。即我们希望找到某一线性映射，使其刻画了在附近的一阶变化量。形式化的显然，若这样的存在，则其必须是唯一的。我们将这样的记作，其中表示在处的微分。现在任取的一组基，考虑注意以上利用了微分的线性性。如果我们将基取作的坐标轴，那么按定义有这便给出了线性映射的具体表达也就是我们熟悉的高维微分的形式。
更一般的，对于定义域（实际上是一微分流形），以及函数，回忆我们在《等式约束优化问题的拉格朗日条件》一文中定义过在处的切空间，记作，是为在处全体可行方向构成的线性空间。当然对于一般的上的函数，切空间自然总是；只有当定义在的某一低维流形上时，切空间才会呈现出特别的结构。此时，在处的微分定义为线性映射，使得任取经过的路径，对于速度向量，均有采取类似的方法，假定切空间是维的，则任取的一组单位正交基，做分解按定义，显然恰为在处沿方向的导数，但现在我们采取更优雅的看法。具体的，对于微分，其是一个上的线性泛函。¹现在取的对偶基，记作。对偶基本身是线性泛函，其作用于，返回在上的投影。因此有这样便得到注意到实际上与无关，而只与切空间相关，因此对于任意定义在流形上的函数，其在处的微分是一个线性泛函，并且落在的张成中。由此，定义流形在处的余切空间为全体定义在上的可微函数在处的微分所构成的集合，亦为切空间的对偶基的张成。如果考虑最简单的情况，此时，那么便得到了我们熟悉的全微分的形式其中为坐标轴的对偶基，恰对应函数的微分，亦对应方向向量到坐标轴的投影泛函。

以上，我们其实是从微分流形的观点来看待微分的，因为这样最能体现微分的本质。同时应注意到切空间和余切空间实际上只依赖于微分流形，而不依赖于具体的函数。

微分的性质

我们期待微分具备一些基本的性质，例如线性性和莱布尼茨律，以方便计算。以下我们将验证这两条性质。

微分的线性性

对于流形上的标量函数，以及任意，取任意路径，记，则分别取的微分，则显然有注意到微分是唯一的，这表明

微分的莱布尼茨律

对于流形上的标量函数，考虑由导数的莱布尼茨律，立刻得到

梯度

低年级分析教材一般把梯度简单的定义为对于各分量的偏导所构成的向量，并说明其恰对应函数值增长最快的方向，而方向导数则可以表达为方向向量与梯度的内积。实际上导数这一概念是不依赖于微分的，我们可以轻易的举出例子，使得即使各个分量的偏导全部存在，函数也不可微。然而梯度这一概念却是依赖于微分的，例如通过梯度的内积得到导数这一操作恰对应微分的表达式。具体的，对于函数，定义其在处的梯度，记作，使得对于任意，有其中为一上的内积。请注意，此处的内积不一定为欧式内积，而定义微分处所用到的范数也不一定为该内积所诱导的范数。对于有限维欧式空间，熟知任意范数在常数意义上是等价的，这意味着无论选择何种范数，微分的定义都是一致的。但此处内积的选择却会影响梯度的结构，然而无论选择何种内积，梯度都是可定义的。具体的，容易看出，对于上的任意内积，必然存在正定阵，使得那么由微分的表达式，应有其中代表欧式内积诱导的梯度，而为内积诱导的梯度。考虑到是任选的，应有这一梯度便满足了“用内积进行求值”的要求。并且在该内积诱导出的范数度量下，梯度恰好是上升最快的方向，这一点容易由 Cauchy-Schwartz 验证。对于任意的单位方向向量，考虑其取等当且仅当与平行，并且在与同向时取得最大值。在实践中我们一般选取欧式内积，这主要是因为该内积下梯度的表达最为自然，而且其恰好反映经典欧式度量下函数上升最快的方向。
特别值得一提的是，观察以上对于微分的定义，可以看出，我们的讨论总是在切空间关于基的坐标下进行的。这样的看法最为自然，因为实际上我们只要求函数在上有定义。然而在一般的情况下，我们会希望写出在全空间的坐标轴尺度下的梯度。如果在上有定义，并且是可微的，那么容易验证，在处的梯度恰为上的梯度到的投影。而如果只在上有定义，标准的看法可能是将可微的延拓到上；但此处我们采取一种更简便的看法。

具体的，在欧氏内积的设定下，我们考虑在基上的梯度，其恰为对于这一组基的各方向导数，记作。容易看出，如果仍然按照梯度的定义进行，那么上任意投影到为的向量都服从切空间中梯度的定义。然而由于我们期望梯度代表了上升最快的方向，额外令，这样便规定了唯一的全空间梯度，坐标为

矩阵微分

在尽量严格的定义过一阶微分以后，现在我们要看一些具体的例子，即矩阵空间上的微分。诚然，矩阵空间仍归于一般的高维欧氏空间，然而我们之所以特别关注这一特例，是因为机器学习中常常需要操作矩阵微分，而我们不希望将矩阵强行向量化，因为这会破坏原先的记号体系，带来操作上的难处。

微分的定义

具体的，考虑矩阵空间上的可微流形，对于，取任意通过的路径。注意定义流形也需要范数，但此处的范数怎么取是无所谓的，我们此处取作 Frobenius 函数。令，则对于上的标量函数，微分定义为类似的，可以在流形上定义切空间和余切空间，这与一般维欧氏空间并无区别，因此此处就不赘述了。

梯度的定义

对于矩阵空间而言，比起微分，梯度的定义有一些特别的门道。由以上的讨论，我们知道不同于流形上的范数，梯度的内积会影响局部的几何结构，因此我们希望选取一个合适的内积，使其可以反映出我们所希望的欧氏结构，而且在记号上方便。为此，我们选择 Frobenius 内积。对于任意，定义这恰好对应矩阵向量化的欧氏内积。现在令，取标准坐标基，我们考察这一内积下的梯度表达定义梯度那么直接得到这样矩阵空间的梯度便也得到了漂亮的写法。

梯度的计算

大家可能会觉得梯度的计算没什么好说的，按照线性性和莱布尼茨律来做就是了。但实际上有一个微妙的问题是，莱布尼茨律本质上是微分的性质，而不是梯度的性质。在标量或者向量的情况下，这一问题很少遇到，因为梯度的表达在形式上和微分差不多。但是在矩阵空间下，求梯度时可能需要借助微分的看法。具体的，考虑一个简单的例子，对于对角阵，矩阵与向量，我们希望计算关于的梯度现在考虑微分，按照线性性和莱布尼茨律注意到微分是线性泛函，因此对其取迹，得到同一映射按照上一节对于矩阵梯度的定义，读出上式的梯度为

线性泛函是一个线性映射，其强调的是值域为标量。当然如此看来很多函数都可以叫泛函，此处这么叫主要是为了区分切空间（由方向向量构成）和余切空间（由维的线性映射构成）中的对象。↩︎

Discussion to Differetials and Derivatives

微分

微分的定义

微分的性质

微分的线性性

微分的莱布尼茨律

梯度

矩阵微分

微分的定义

梯度的定义

梯度的计算