线性代数学习笔记(十一):二次型、正定矩阵以及非负矩阵


特征值

6.6 二次型

前面我们已经了解到线性代数在解决线性方程组方面的重要的作用, 在本节中我们将进一步展示线性代数在研究二次方程上的作用。另外本节中因为主要是研究二次方程相关的内容,因此我们主要通过例子展开本文。

定义 一个二次方程(quadratic equation)为两个变量的方程


上面的方程可以写为


如果令




称为与相关的二次型(quadratic form).

圆锥曲线

​ 一个形如的方程对应的图形称为圆锥曲线(conic section).[如果没有有序对(x, y)满足则称方程表示一条虚圆锥曲线]. 另外, 当方程仅包含一个点、一条直线或者是两条直线的时候我们称其为退化的圆锥曲线. 不过我们往往更关心非退化的圆锥曲线. 高中知识告诉我们, 当圆锥曲线是下面的标准形式的时候, 其将会非常容易绘制.

  1. (圆)
  2. (椭圆)
  3. (双曲线)
  4. (抛物线)

​ 但是对于不是标准形式的圆锥曲线就比较难以想象到它的图形了. 不过我们还是可以从标准形式出发, 来观察非标准形式的圆锥曲线是怎样通过标准形式的圆锥曲线变换得到的. 考虑下面的情况:

  1. 圆锥曲线从标准位置水平移动得到. 这出现在中当均有非零系数时.
  2. 圆锥曲线从标准位置垂直移动得到. 这出现在中当均有非零系数时.
  3. 圆锥曲线由标准位置旋转一个不是的倍数得到. 这出现在当项的系数非零时.

​ 更一般的圆锥曲线实际上是上面三种情况的组合得到的. 对于前两种情况我们通过简单的配方就可以将其变换为标准形式. 因此接下来我们将讨论对于含有项的圆锥曲线, 如何才能将其变换为标准形式.

​ 对于含有项的圆锥曲线方程我们就需要对原坐标系进行一个坐标变换, 使得在新坐标系的方程不含有项. 令. 因为新坐标系和原坐标系仅仅只是相差了一个旋转变换, 而我们前面提到一个旋转变换实际上就是做成一个旋转变换矩阵, 因此我们有


其中


利用这种变换, 前面的方程就可以化为


其中. 这个方程不包含的充要条件是是对角的. 而是对称的, 这就启示我们可以利用前面的推论6.4.7来求出可以对角化矩阵, 因此问题就得到解决了.

​ 前面我们讨论的都是两个变量的情况, 实际上对于含有任意数目的变量前面我们的讨论都是成立的. 对于一个含有个变量的二次方程形如


其中, 为一的实对称矩阵, 为一的矩阵, 且为一标量. 向量函数


为二次方程关联的个变量的二次型.

​ 当有三个变量的时候, 方程实际对应的就是二次曲面, 类比二次曲线, 二次曲面就有椭球面、双曲面、锥面和抛物面这几种形式。 同样的我们也可以利用前面介绍的对角化的方法把一个一般的方程华为标准形式。 对于一个一般情况下的维的形式, 二次型总是可以华为一个较简单的对角型. 更为精确的, 我们有如下的定理

定理 6.6.1(主轴定理) 若为一实对称的矩阵, 则存在一个变量变换使得, 其中为一对角矩阵.

利用推论6.4.7这个定理的证明是显然的, 就不再叙述了.

最优化:微积分的一个应用

​ 接下来我们将考虑多变量函数的最大化和最小化的问题(这个问题实际上已经在多元微积分中接触过了, 基本是相同的内容). 作为开始, 我们先来看一个关于驻点的定义.

定义上一个实值向量函数. 若在中的一个点处, 的所有一阶偏导数存在且等于零, 则称为驻点(stationary point).

​ 若在点有局部极大值或者局部极小值, 则处的一阶偏导数将全部为0, 也即是说, 若处处存在一阶偏导数, 则其局部极大值和局部极小值将在驻点取得. 简单起见, 我们先来看一个二次型的问题.

​ 考虑二次型


的一阶偏导数为


为了求得驻点, 令上面的, 我们可以看到是一个驻点. 因而, 如果矩阵


为非奇异的, 这将是唯一的临界点. 因此, 如果是非奇异的, 将在点有一个全局极小值、全局极大值或者鞍点. 将写为


由于, 可得处有全局极小值的充要条件为, 对所有的,


处有全局极大值的充要条件为对所有的


变号, 则为一个鞍点.

​ 一般的, 如果为一个有个变量的二次型, 则对每一, 有


其中为一对称矩阵.

定义中取遍所有的非零向量时, 一个二次型仅取一个符号的, 则称其为定的(definite). 若对中的所有非零向量, , 则称该二次型为正定的(positive definite). 若, 则称其为负定的(negative definite). 若一个二次型取不同的符号, 则称其为不定的(indefinite). 若, 且假定对某, 其值为, 则称为半正定的(positive semidefinite). 若, 且假定对某, 则称为半负定的(negative semidefinite).

​ 事实上二次型是正定的或者负定的依赖与矩阵. 若二次型是正定的, 我们简称为正定的. 前面这一大堆就可以按照如下的方式重述

定义 一个实对称矩阵称为

  1. 正定的, 若对中的所有非零, .
  2. 负定的, 若对中的所有非零, .
  3. 半正定的, 若对中的所有非零, .
  4. 半负定的, 若对中的所有非零, .
  5. 不定的, 若对中的所有非零, 的取值有不同的符号.

为非奇异的, 则的唯一驻点; 若为正定的, 则这个驻点为全局最小值, 若为负定的, 则为全局最大值, 若为不定的, 则为鞍点. 这就是说判断一个矩阵的是正定或者负定或者是不定的是非常重要的, 下面的定理给出了一种非常有效的判断方法.

定理 6.6.2为一矩阵. 则是正定的, 当且仅当其所有的特征值是正的.

证明为正定的, 且的一个特征值, 则任意属于的特征向量, 有


因此


反之, 假设的所有的特征值均为正的. 令的一个规范正交特征向量集, 若中的任意非零向量, 则可以写为


其中


由此可得


因此是正定的. 从而定理证毕.

值得说明的是, 如果所有的特征值是负的, 则必定是正定的, 因此为负定的. 若的特征值符号不同, 则是不定的.

​ 现在我们假设有一函数, 其驻点为. 若的临域内有连续的三阶偏导数, 则可以将其在该点进行如下的泰勒展开


其中


其余项为


如果充分小, 则将小于, 于是将和有相同的符号. 表达式


为变量的二次型. 因此处取得局部极小值(极大值)的充要条件为处有一极小值(极大值). 令


并且令的特征值. 若为非奇异的, 则为非零的, 且可以将驻点如下分类:

  1. , 则处有一个极小值.
  2. , 则处有一个极大值.
  3. 有不同的符号, 则在(x_0, y_0)$处有一个鞍点.

前面我们一直在讨论二元函数的情况, 实际上同样的结论可以推广到多个变量的情况. 令为一个实值函数, 其三阶偏导数均为连续的. 令的一个驻点, 且定义矩阵


称为点的黑塞矩阵.

现在驻点就可以按照如下的规则进行分类了.

  1. 为正定的, 则的一个局部极小值点.
  2. 为负定的, 则的一个局部极大值点.
  3. 为不定的, 则的一个鞍点.

至此关于二次型的内容就全部介绍完毕了. 这一部分内容的介绍我还是基本是按照《线性代数》这本书原书上的叙述来写的, 只是对其中的一些叙述不是很好理解的地方稍作改动或者是说明来帮助理解. 关于一些定理的证明与一些说法的推理都详尽的写出来了, 主要是我个人感觉这些东西里面的思想还是值得学习的.

6.7 正定矩阵

前面我们已经看到正定矩阵在实际问题中是非常有用的, 接下来我们就来具体的看一下正定矩阵的性质.

前面我们已经了解了正定矩阵的定义, 同时定理6.2.2也给出了判断正定矩阵的方法即正定矩阵的特征值均为正的. 由此出发, 我们可以得到一些正定矩阵的性质.

  1. 性质一为一对称正定矩阵, 则为非奇异的.

  2. 性质二为一对称正定矩阵, 则.

    这两个性质很好理解, 如果是奇异的, 那么其一定有一个特征值为0, 而其所有的特征值均为正的, 因此必定是非奇异的. 而方阵行列式的值正好是特征值的乘积, 因此对称正定矩阵的行列式也必定是大于0的.

  3. 性质三为一对称正定矩阵, 则的前主子矩阵均为正定的.

    证明 为证明是正定的, 其中, 令中的任意非零向量, 并令


    由于


    可得为正定的.

    上面的三个定理可以推出一个很有用的结论, 也就是下面的性质四:

  4. 性质四为一对称正定矩阵, 则课仅使用行运算三化为上三角矩阵, 且主元将全为正的.

    这里我并不打算严格证明这个结论而仅仅只是简单说明一下, 对于一个的矩阵, 如果有


    因为的所有顺序主子式都是正定的, 因此是正的, 因而可以利用行变换三把第一列的内容消掉, 于是我们可以得到下面的矩阵


    同理因为的所有顺序主子式都是正的, 因此也是正定的, 也就是有. 而我们前面已经确定了是大于零的, 因此也是大于0的, 从而可以利用将其下面的所有的元素都变为, 以此类推, 最后矩阵就会变成下面的形式


    其中都是大于的. 至此我们也就说明了这个性质是成立的.

    上面的过程其实蕴含了一个很有意思的结论, 如果一个的矩阵可以化为一个上三角矩阵而不需要进行行行交换, 则可以被分解为一个乘积, 其中为下三角的, 其对角元素均为. 对角线下的第元素为消元过程中第行减去第行的倍数. 下面我们就来说明这个结论.

    前面我们已经了解到, 每一个行变换实际上都对应了一个初等矩阵, 而在前面叙述的不需要进行行行交换的操作中, 实际上我们只需要进行行变换三(因为行变换一对于把矩阵化为对角矩阵是无所谓的. 而从行减去第行的倍对应的初等矩阵就是下面的形式.


    其中这个元素位于第行第列, 如果简记上面的这个矩阵为的话, 那么有


    从而我们对原来的矩阵进行的一系列的变换实际上就是左乘了这样的一个矩阵. 而两个这样的矩阵的乘积是非常有意思的一个结果


    也就是相当于两个这样的初等矩阵的除掉0和对角线上的1之外其他元素"叠加"的结果. 实际上这个结果不难理解, 因为两个这样的矩阵的乘积相当于在一个初等矩阵的基础上进行与另一个初等矩阵对应的行变换, 其结果必然是这样的一个类似的叠加效果(因为变幻的行和列是不相同的). 这样一来我们就大致说明了前面的结论(这里我个人感觉有点不太好表达不过那一个例子手动进行一下这个过程就非常明显了).

    现在我们已经说明了可以对矩阵进行这样的分解. 如果我们进行进一步的分解, 把分解为一个, 其中为一个对角的矩阵, 为一个上三角的且其对角线元素均为1的矩阵(这个分解显然是可行的, 这里就不多说明了). 由此可得. 一般的, 如果可以分解为一个形如的乘积(注意这里我们换了符号, 这里的不再是分解中的了), 其中是下三角的, 是对角的, 是上三角的, 且的对角元素均为, 则这种分解将是唯一的.

    这种分解的唯一性说明起来稍微有点麻烦, 不过还是很好理解的. 首先我们需要说明的第一个问题就是一个上三角的矩阵的逆也必定为上三角矩阵, 一个下三角矩阵的逆必定为下三角矩阵. 这个不论是利用增广矩阵求逆还是伴随矩阵求逆的过程都是很容易说明的这里就不再详细叙述. 然后我们来看这个分解, 令, 根据定义显然均为可逆矩阵. 因此可以有如下的等式


    显然两个上三角矩阵的乘积仍然为上三角矩阵, 下三角矩阵的乘积也为下三角矩阵, 并且任何一个三角矩阵乘以一个对角矩阵将仍然是原来形状的三角形矩阵. 因此方程左边显然为一个下三角矩阵, 方程右边为一个上三角矩阵. 而若一个上三角矩阵等于下三角矩阵, 则这两个矩阵一定均为对角矩阵. 因而是一个对角矩阵. 另外注意到的对角线元素显然为1, 因此其乘积的对角线元素显然也为1, 从而就只能是一个单位矩阵, 从而有, 即 . 从而上面的等式变成, 进一步变形得到


    同样的道理, 为对角矩阵, 则也为对角矩阵, 而的对角线元素均为, 则其乘积对角线元素也必定为, 从而有. 从而有. 至此已经说明了该分解的唯一性.

    现在我们已经说明了分解的唯一性, 若为一对称正定矩阵, 那么就可以分解为的形式, 从而有


    根据分解的唯一性, 有. 因此


    这个分解非常重要, 尤其是在数值计算里面, 求解对称正定方程组的时候可以通过这个分解得到高效的算法. 不过, 事实上我们现在讨论的这些东西也是为了下面的性质五做铺垫了.

  5. 性质五为一对称正定矩阵, 则可分解为一个乘积, 其中为下三角的, 其对角线上的元素为, 且为一个对角矩阵, 其对角元素均为正的.

    这个性质我们前面已经说明过了, 不过既然根据性质四, 我们可以得到的对角元素都是正的, 因此我们还可以进一步分解. 令


    并令. 则


    这种分解就被称为的楚列斯基分解(Cholesky decomposition). 也就是下面我们将要叙述的性质

  6. 性质六 (楚列斯基分解) 若为一对称正定矩阵, 则可分解为一个乘积, 其中为下三角的, 其对角线元素均为正的.

    对称正定的矩阵的楚列斯基分解也是可以表示承上三角的, 如果令, 则有


    其中为上三角矩阵.

    当然更为一般的, 其实我们还可以证明若为非奇异的, 则任何乘积应是正定的.

上面的结论总结在一起, 我们就可以得到下面的定理

定理 6.7.1为一的对称矩阵. 下面的命题是等价的

  1. 为正定的.
  2. 前主子矩阵均为正定的.
  3. 可仅使用行运算三化为上三角的, 且主元将全部为正的.
  4. 有一个楚列斯基分解(其中为下三角矩阵, 其对角元素为正的).
  5. 可以分解为一个乘积, 其中为某非奇异矩阵.

前面我们的过程已经说明了1可推出2, 2可推出3, 3可推出4, 而4可以简单的令即可推出5. 最后为了证明5可推出1, 我们可以令中的任意非零向量并令. 由于为非奇异的, , 由此可得


因此为正定的.

值得注意的是上面定理的类似结果对半正定的情况是不成立的.

6.8 非负矩阵

在实际的问题中出现的线性方程组其系数矩阵的元素均为非零的值, 本节将简单的研究这样的矩阵和它们的一些性质.

定义 一个实矩阵, 若对每一, , 则称为非负的(nonnegative); 若对每一, , 则成为正的(positive).

定理6.8.1(佩龙定理) 若为一正的矩阵, 则有一个正的实特征值, 它具有如下的性质:

  1. 为特征方程的一个单根.
  2. 有一个正的特征向量.
  3. 的任意其他特征值, 则.

这个定理可以看成是弗罗贝尼乌斯给出的一个更具一般性的定理的特例, 为了给出这个定理, 我们先来看一个定义

定义 一个非负矩阵, 若可将下标集划分为非空不交集合, 使得当时, , 则称其为可约的(reducible). 否则称为不可约的(irreducible).

定理6.8.2(弗罗贝尼乌斯定理) 若为一不可约非负矩阵, 则有一个正的实特征值, 它具有如下的性质:

  1. 有一个正特征向量.

  2. 的任意其他特征值, 则. 特征值的绝对值在特征方程的所有单根处等于. 事实上, 若存在个绝对值等于的特征值, 它们必形如

这个定理的证明超出了教材的范围, 就不再详细证明了.

非负矩阵这一章更侧重于实际应用, 而相关的实际应用的内容我并没有写出来, 因而还是推荐大家去阅读原教材《线性代数》.


评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注