线性代数学习笔记(十一):二次型、正定矩阵以及非负矩阵

6.6 二次型

前面我们已经了解到线性代数在解决线性方程组方面的重要的作用, 在本节中我们将进一步展示线性代数在研究二次方程上的作用。另外本节中因为主要是研究二次方程相关的内容,因此我们主要通过例子展开本文。

定义 一个 二次方程 (quadratic equation)为两个变量 的方程

上面的方程可以写为

如果令

称为与 相关的 二次型 (quadratic form).

圆锥曲线

一个形如 的方程对应的图形称为圆锥曲线(conic section).[如果没有有序对(x, y)满足 则称方程表示一条虚圆锥曲线]. 另外, 当方程仅包含一个点、一条直线或者是两条直线的时候我们称其为退化的圆锥曲线. 不过我们往往更关心非退化的圆锥曲线. 高中知识告诉我们, 当圆锥曲线是下面的标准形式的时候, 其将会非常容易绘制.

  1. (圆)
  2. (椭圆)
  3. (双曲线)
  4. (抛物线)

但是对于不是标准形式的圆锥曲线就比较难以想象到它的图形了. 不过我们还是可以从标准形式出发, 来观察非标准形式的圆锥曲线是怎样通过标准形式的圆锥曲线变换得到的. 考虑下面的情况:

  1. 圆锥曲线从标准位置水平移动得到. 这出现在 中当 均有非零系数时.
  2. 圆锥曲线从标准位置垂直移动得到. 这出现在 中当 均有非零系数时.
  3. 圆锥曲线由标准位置旋转一个不是 的倍数得到. 这出现在当 项的系数非零时.

更一般的圆锥曲线实际上是上面三种情况的组合得到的. 对于前两种情况我们通过简单的配方就可以将其变换为标准形式. 因此接下来我们将讨论对于含有 项的圆锥曲线, 如何才能将其变换为标准形式.

对于含有 项的圆锥曲线方程我们就需要对原坐标系进行一个坐标变换, 使得在新坐标系 的方程不含有 项. 令 . 因为新坐标系和原坐标系仅仅只是相差了一个旋转变换, 而我们前面提到一个旋转变换实际上就是做成一个旋转变换矩阵 , 因此我们有

其中

利用这种变换, 前面的方程 就可以化为

其中 . 这个方程不包含 的充要条件是 是对角的. 而 是对称的, 这就启示我们可以利用前面的推论6.4.7来求出可以对角化矩阵 , 因此问题就得到解决了.

前面我们讨论的都是两个变量的情况, 实际上对于含有任意数目的变量前面我们的讨论都是成立的. 对于一个含有 个变量 的二次方程形如

其中 , 为一 的实对称矩阵, 为一 的矩阵, 且 为一标量. 向量函数

为二次方程关联的 个变量的二次型.

当有三个变量的时候, 方程实际对应的就是二次曲面, 类比二次曲线, 二次曲面就有椭球面、双曲面、锥面和抛物面这几种形式。 同样的我们也可以利用前面介绍的对角化的方法把一个一般的方程华为标准形式。 对于一个一般情况下的 维的形式, 二次型总是可以华为一个较简单的对角型. 更为精确的, 我们有如下的定理

定理 6.6.1 (主轴定理) 若 为一实对称的 矩阵, 则存在一个变量变换 使得 , 其中 为一对角矩阵.

利用推论6.4.7这个定理的证明是显然的, 就不再叙述了.

最优化:微积分的一个应用

接下来我们将考虑多变量函数的最大化和最小化的问题(这个问题实际上已经在多元微积分中接触过了, 基本是相同的内容). 作为开始, 我们先来看一个关于驻点的定义.

定义 上一个实值向量函数. 若在 中的一个点 处, 的所有一阶偏导数存在且等于零, 则 称为 驻点 (stationary point).

在点 有局部极大值或者局部极小值, 则 处的一阶偏导数将全部为0, 也即是说, 若 处处存在一阶偏导数, 则其局部极大值和局部极小值将在驻点取得. 简单起见, 我们先来看一个二次型的问题.

考虑二次型

的一阶偏导数为

为了求得驻点, 令上面的 , 我们可以看到 是一个驻点. 因而, 如果矩阵

为非奇异的, 这将是唯一的临界点. 因此, 如果 是非奇异的, 将在 点有一个全局极小值、全局极大值或者鞍点. 将 写为

由于 , 可得 处有全局极小值的充要条件为, 对所有的 ,

处有全局极大值的充要条件为对所有的

变号, 则 为一个鞍点.

一般的, 如果 为一个有 个变量的二次型, 则对每一 , 有

其中 为一 对称矩阵.

定义 中取遍所有的非零向量时, 一个二次型 仅取一个符号的, 则称其为 定的 (definite). 若对 中的所有非零向量 , , 则称该二次型为 正定的 (positive definite). 若 , 则称其为 负定的 (negative definite). 若一个二次型取不同的符号, 则称其为 不定的 (indefinite). 若 , 且假定对某 , 其值为 , 则 称为 半正定的 (positive semidefinite). 若 , 且假定对某 , 则 称为 半负定的 (negative semidefinite).

事实上二次型是正定的或者负定的依赖与矩阵 . 若二次型是正定的, 我们简称 为正定的. 前面这一大堆就可以按照如下的方式重述

定义 一个实对称矩阵 称为

  1. 正定的 , 若对 中的所有非零 , .
  2. 负定的 , 若对 中的所有非零 , .
  3. 半正定的 , 若对 中的所有非零 , .
  4. 半负定的 , 若对 中的所有非零 , .
  5. 不定的 , 若对 中的所有非零 , 的取值有不同的符号.

为非奇异的, 则 的唯一驻点; 若 为正定的, 则这个驻点为全局最小值, 若 为负定的, 则为全局最大值, 若为不定的, 则 为鞍点. 这就是说判断一个矩阵的是正定或者负定或者是不定的是非常重要的, 下面的定理给出了一种非常有效的判断方法.

定理 6.6.2 为一 矩阵. 则 是正定的, 当且仅当其所有的特征值是正的.

证明 为正定的, 且 的一个特征值, 则任意属于 的特征向量 , 有

因此

反之, 假设 的所有的特征值均为正的. 令 的一个规范正交特征向量集, 若 中的任意非零向量, 则 可以写为

其中

由此可得

因此 是正定的. 从而定理证毕.

值得说明的是, 如果所有的特征值是负的, 则 必定是正定的, 因此 为负定的. 若 的特征值符号不同, 则 是不定的.

现在我们假设有一函数 , 其驻点为 . 若 的临域内有连续的三阶偏导数, 则可以将其在该点进行如下的泰勒展开

其中

其余项为

如果 充分小, 则 将小于 , 于是 将和 有相同的符号. 表达式

为变量 的二次型. 因此 处取得局部极小值(极大值)的充要条件为 处有一极小值(极大值). 令

并且令 的特征值. 若 为非奇异的, 则 为非零的, 且可以将驻点如下分类:

  1. , 则 处有一个极小值.
  2. , 则 处有一个极大值.
  3. 有不同的符号, 则 在(x_0, y_0)$处有一个鞍点.

前面我们一直在讨论二元函数的情况, 实际上同样的结论可以推广到多个变量的情况. 令 为一个实值函数, 其三阶偏导数均为连续的. 令 的一个驻点, 且定义矩阵

称为 点的 黑塞矩阵 .

现在驻点就可以按照如下的规则进行分类了.

  1. 为正定的, 则 的一个局部极小值点.
  2. 为负定的, 则 的一个局部极大值点.
  3. 为不定的, 则 的一个鞍点.

至此关于二次型的内容就全部介绍完毕了. 这一部分内容的介绍我还是基本是按照《线性代数》这本书原书上的叙述来写的, 只是对其中的一些叙述不是很好理解的地方稍作改动或者是说明来帮助理解. 关于一些定理的证明与一些说法的推理都详尽的写出来了, 主要是我个人感觉这些东西里面的思想还是值得学习的.

6.7 正定矩阵

前面我们已经看到正定矩阵在实际问题中是非常有用的, 接下来我们就来具体的看一下正定矩阵的性质.

前面我们已经了解了正定矩阵的定义, 同时定理6.2.2也给出了判断正定矩阵的方法即正定矩阵的特征值均为正的. 由此出发, 我们可以得到一些正定矩阵的性质.

  1. 性质一 为一对称正定矩阵, 则 为非奇异的.

  2. 性质二 为一对称正定矩阵, 则 .

    这两个性质很好理解, 如果 是奇异的, 那么其一定有一个特征值为0, 而其所有的特征值均为正的, 因此 必定是非奇异的. 而方阵行列式的值正好是特征值的乘积, 因此对称正定矩阵的行列式也必定是大于0的.

  3. 性质三 为一对称正定矩阵, 则 的前主子矩阵 均为正定的.

    证明 为证明 是正定的, 其中 , 令 中的任意非零向量, 并令

    由于

    可得 为正定的.

    上面的三个定理可以推出一个很有用的结论, 也就是下面的性质四:

  4. 性质四 为一对称正定矩阵, 则 课仅使用行运算三化为上三角矩阵, 且主元将全为正的.

    这里我并不打算严格证明这个结论而仅仅只是简单说明一下, 对于一个 的矩阵 , 如果有

    因为 的所有顺序主子式都是正定的, 因此 是正的, 因而可以利用行变换三把第一列的内容消掉, 于是我们可以得到下面的矩阵

    同理因为 的所有顺序主子式都是正的, 因此 也是正定的, 也就是有 . 而我们前面已经确定了 是大于零的, 因此 也是大于0的, 从而可以利用 将其下面的所有的元素都变为 , 以此类推, 最后矩阵就会变成下面的形式:

    其中 都是大于 的. 至此我们也就说明了这个性质是成立的.

    上面的过程其实蕴含了一个很有意思的结论, 如果一个 的矩阵 可以化为一个上三角矩阵 而不需要进行行行交换, 则 可以被分解为一个乘积 , 其中 为下三角的, 其对角元素均为 . 对角线下的第 元素为消元过程中第 行减去第 行的倍数. 下面我们就来说明这个结论.

    前面我们已经了解到, 每一个行变换实际上都对应了一个初等矩阵, 而在前面叙述的不需要进行行行交换的操作中, 实际上我们只需要进行行变换三(因为行变换一对于把矩阵化为对角矩阵是无所谓的. 而从 行减去第 行的 倍对应的初等矩阵就是下面的形式:

    其中 这个元素位于第 行第 列, 如果简记上面的这个矩阵为 的话, 那么有

    从而我们对原来的矩阵进行的一系列的变换实际上就是左乘了这样的一个矩阵. 而两个这样的矩阵的乘积是非常有意思的一个结果

    也就是相当于两个这样的初等矩阵的除掉0和对角线上的1之外其他元素"叠加"的结果. 实际上这个结果不难理解, 因为两个这样的矩阵的乘积相当于在一个初等矩阵的基础上进行与另一个初等矩阵对应的行变换, 其结果必然是这样的一个类似的叠加效果(因为变幻的行和列是不相同的). 这样一来我们就大致说明了前面的结论(这里我个人感觉有点不太好表达不过那一个例子手动进行一下这个过程就非常明显了).

    现在我们已经说明了可以对矩阵 进行这样的 分解. 如果我们进行进一步的分解, 把 分解为一个 , 其中 为一个对角的矩阵, 为一个上三角的且其对角线元素均为1的矩阵(这个分解显然是可行的, 这里就不多说明了). 由此可得 . 一般的, 如果 可以分解为一个形如 的乘积(注意这里我们换了符号, 这里的 不再是 分解中的 了), 其中 是下三角的, 是对角的, 是上三角的, 且 的对角元素均为 , 则这种分解将是唯一的.

    这种分解的唯一性说明起来稍微有点麻烦, 不过还是很好理解的. 首先我们需要说明的第一个问题就是一个上三角的矩阵的逆也必定为上三角矩阵, 一个下三角矩阵的逆必定为下三角矩阵. 这个不论是利用增广矩阵求逆还是伴随矩阵求逆的过程都是很容易说明的这里就不再详细叙述. 然后我们来看这个分解, 令 , 根据定义显然 均为可逆矩阵. 因此可以有如下的等式

    </