线性代数与矩阵之对称矩阵

线性代数与矩阵之对称矩阵

对称矩阵

在线性代数中,对称矩阵(英语:symmetric matrix)是一个方形矩阵,其转置矩阵和自身相等\[A = A^{\textrm{T}}\] 对称矩阵中的右上至左下方向元素以主对角线(左上至右下)为轴进行对称。若将其写作\(A = (a_{ij})\),则对所有的\(i和j\)\[a_{ij}=a_{ji}.\] 下列是3×3的对称矩阵: \[\begin{bmatrix} 1 & 2 & 3\\ 2 & 4 & -5\\ 3 & -5 & 6\end{bmatrix}\] 下列是斜对称矩阵(英语:skew-symmetric matrix,又称反对称矩阵,英语:antisymmetric matrix): \[\begin{bmatrix} 0 & -3 & 4\\ 3 & 0 & -5\\ -4 & 5 & 0\end{bmatrix}\]

简单性质

  • 对于任何方形矩阵\(X\)\(X+X^T\)是对称矩阵。(此外,对称矩阵的和也是对称矩阵。)
  • \(A\)为方形矩阵是\(A\)为对称矩阵的必要条件,即对称矩阵行数必等于列数(显而易见)。
  • 对角矩阵都是对称矩阵(显而易见)。
  • 每个实方形矩阵都可写作两个实对称矩阵的积,每个复方形矩阵都可写作两个复对称矩阵的积。(神奇,未曾自己证明)
  • 若对称矩阵\(A\)的每个元素均为实数\(A\)是实对称矩阵。
  • 一个矩阵同时为对称矩阵及斜对称矩阵当且仅当所有元素都是零。(显而易见)
  • 如果X是对称矩阵,那么\(AXA^T\) 也是对称矩阵.证明:\((AXA^T)^T=(A^T)^TX^TA^T=AX^TA^T;\because X^T=X;\therefore AX^TA^T=AXA^T\)

实对称矩阵的特征值与特征向量

先说结论:

  1. 实对称矩阵的特征值都是实数。实际上,即使是对称矩阵在复数域上的推广埃米特矩阵,其特征值也都是实数。关于埃米特矩阵的简介,见笔记末尾拓展:埃米特矩阵
  2. 实对称矩阵的属于不同特征值的特征向量都是正交的。
  3. 特征值符号和主元符号相同,即正特征值数等于正主元数。(证明略)

特征值都是实数

对于实对称矩阵的特征值都是实数的证明,我们直接证明埃米特矩阵\(A\),因为实对称矩阵只是埃米特矩阵的特殊情况。

我们需要用到共轭转置,即\(A^H,x^H\),具体操作为所有元素行列位置交换并取共轭,共轭转置是转置在复数域的推广。 设\(\lambda_1, x_1\)分别是埃米特矩阵\(A\)任意一对特征值和特征向量,因而有: \[Ax_1=\lambda_1 x_1\] 两边同时左乘\(x_1^H\)可得 \[x_1^H A x_1=\lambda_1 x_1^Hx=\lambda_1 |x_1|^2\tag{1}\] 同时,由于\(A\)是埃米特矩阵,有\(A^H=A\),所以有: \[(Ax_1)^H=(\lambda_1 x_1)^H=x_1^H\underbrace{A^H}_{=A}=\underbrace{\bar{\lambda}_1}_{取共轭}x_1^H\] 两边同时右乘\(x_1\)可得: \[x_1^H A x_1=\bar{\lambda}_1 x_1^Hx=\bar{\lambda}_1 |x_1|^2\tag{2}\] 显然,式(1)等于式(2),所以: \[\lambda_1 |x_1|^2=\bar{\lambda}_1 |x_1|^2\Rightarrow \lambda_1=\bar{\lambda}_1\]\(\lambda_1\)是实数。因为\(\lambda_1\)是埃米特矩阵\(A\)的任意一特征值,所以\(A\)的所有特征值都是实数。

不同特征值的特征向量正交

这里需要指出的是,这个特性只针对不同特征值下的特征向量。而对于同一特征值下的特征向量,我们可以取该特征值特征空间中的一组正交基,来保证其正交性。后面我们将通过对称矩阵特征值分解的存在性,说明特征空间维数等于特征值代数重数,所以我们能在\(n\)维对称矩阵中找出\(n\)个正交的特征向量

现在,我们先证明不同特征值条件下的特征向量正交性。

我们假设对称矩阵\(A\)任意两个不同的特征值\(\lambda_1,\lambda_2\)相应的特征向量为\(x_1,x_2\),显然有: \[Ax_1=\lambda_1 x_1\quad Ax_2=\lambda_2 x_2\] 我们将第二个式子做转置加上\(A\)的对称性可得:\((Ax_2)^T=x_2^TA^T=x_2^TA=\lambda_2 x_2^T\)。我们用\(x_2^T\)左乘\(Ax_1=\lambda_1 x_1\),再用\(x_1\)右乘\(x_2^TA=\lambda_2 x_2^T\)可得: \[x_2^TAx_1=\lambda_1 x_2^Tx_1\\x_2^TAx_1=\lambda_2 x_2^Tx_1\] 因此可得: \[\lambda_1 x_2^Tx_1=\lambda_2 x_2^Tx_1\Rightarrow (\lambda_1-\lambda_2)x_2^Tx_1=0\] 由于\(\lambda_1\neq \lambda_2\),所以\(x_2^Tx_1=0\),即\(x_2^T\perp x_1\)二者正交。又因为特征值\(\lambda_1,\lambda_2\),特征向量\(x_1,x_2\)的任意性,我们可证不同特征值的特征向量正交。

对称矩阵与正定性

谈到对称矩阵多少会聊到矩阵的正定性,通常正定性是定义在对称矩阵(或埃米特矩阵)上的,如果一个矩阵不是对称矩阵,就不具备讨论正定性的前提条件。

一个\(n×n\)的实对称矩阵\(A\)正定的,当且仅当对于所有的非零实系数向量\(x\),都有\(x^TAx>0\),其中\(x^T\)表示x的转置。

类似的,如果\(x^TAx\geq 0\),则\(A\)称为半正定矩阵;如果\(x^TAx<0\),则\(A\)称为负定矩阵;如果\(x^TAx\leq 0\),则\(A\)称为半负定矩阵

正定性还有这几个等价命题:

  1. 矩阵\(A\)的所有特征值为正
  2. 矩阵\(A\)的所有主元为正
  3. 矩阵\(A\)的顺序主子式为正
  4. 矩阵\(A\)与单位阵\(I\)合同,即存在可逆矩阵\(C\),使得\(A=C^TIC\)

类似的,半正定矩阵有以下等价命题:

  1. 矩阵\(A\)的所有特征值为非负
  2. 矩阵\(A\)的所有主元为非负
  3. 矩阵\(A\)的顺序主子式为非负

我们可以通过例子说明,非对称矩阵可以在满足上述1,2,3的前提下不满足正定矩阵的定义\(x^TAx>0\)。如下例 \[ \begin{bmatrix} 1&-100\\0&1 \end{bmatrix} \] 显然,其主元、特征值都是1,顺序主子式也都大于0,但是对于\(x^TAx\),我们随便找一个向量\(x=[1,1]^T\),则 \[ [1\quad 1]\begin{bmatrix}1&-100\\0&1\end{bmatrix}\begin{bmatrix}1\\1\end{bmatrix}=-98<0 \] 这并不满足\(x^TAX>0\)。这说明,正定性必须建立在对称矩阵上

对称矩阵的分解

对称矩阵分解最重要的就是特征分解,又称谱分解。本节将着重介绍对称矩阵特征分解的存在性。同时,对于对称矩阵而言,SVD分解和特征分解是一样的。最后,我们对埃米特矩阵补充了Cholesky分解的相关内容,Cholesky分解是正定埃尔米特矩阵的LU分解,且具有唯一性。

特征分解(谱分解)

特征分解的具体方法可见笔记线性代数与矩阵之特征值与特征向量。这节我们着重说明对称矩阵特征分解的必定存在性。

首先,我们需要引入实矩阵的舒尔分解,详细内容见线性代数与矩阵之矩阵分解

实数域的舒尔分解定理:如果\(A∈\mathbb{R}^n\)\(n\)阶的实方阵,则存在\(n\)阶正交矩阵\(Q\)\(n\)拟上三角矩阵\(T\),使得 \[A=QTQ^{-1}=QTQ^T\] 即任何一个\(n\)阶实方阵\(A\)正交相似于一个\(n\)拟上三角矩阵\(T\)

对于对称矩阵而言,由于\(A^T=A\),所以矩阵\(A\)和其转置\(A^T\)写成舒尔分解形式有: \[\left . \begin{aligned}A=QTQ^T\\A^T=QT^TQ^T\\A=A^T\end{aligned}\right\}\Rightarrow QT^TQ^T=QTQ^T\Rightarrow T^T=T\] 由于\(T\)是拟三角矩阵,当其也为对称矩阵的时候,\(T\)必然是一个对角矩阵。我们用\(\Lambda\)表示。这个证明用转置相等可以证明,在此就不详细写了。所以,对称矩阵\(A\)一定可以分解成正交矩阵和对角阵的组合,即\(A=Q\Lambda Q^T\)

以上说明,对称矩阵\(A\)是一定可以对角化的,而构建对角化的方法,就是笔记线性代数与矩阵之特征值与特征向量中提到的特征分解方法。

最后,加一个注:对称矩阵的SVD分解等于谱分解

Cholesky分解

Cholesky分解是正定埃尔米特矩阵的LU分解。

Cholesky分解是指将一个正定的埃尔米特矩阵分解成一个下三角矩阵与其共轭转置之乘积\[\mathbf A=\mathbf L\mathbf L^\ast\] 当矩阵\(\mathbf{A}\)是一个半正定的埃尔米特矩阵,若允许\(\mathbf {L}\)的对角线元素为,则\(\mathbf{A}\)也存在上述形式的分解。

\(\mathbf{A}\)为实数矩阵,则\(\mathbf {L}\)也为实数矩阵且Cholesky分解可改写成 \[\mathbf {A} =\mathbf {LL} ^{\mathbf {T} }\]

分解唯一性

\(\mathbf{A}\)正定矩阵时,Cholesky分解是唯一的,即只存在一个对角元素均严格大于零的下三角矩阵,使\(\mathbf {A} =\mathbf {LL} ^{*}\)成立。然而,当\(\mathbf{A}\)半正定时,分解则不一定是唯一的。

定理的逆命题自然成立:对于某些可逆矩阵\(\mathbf {L}\)(下三角矩阵或其他矩阵),如果\(\mathbf{A}\)可被写成\(\mathbf {LL} ^{*}\),则\(\mathbf{A}\)是一个正定的埃尔米特矩阵。

分解方法

Cholesky分解是LU分解的高斯消元法改进。

这种分解方式在提高代数运算效率、蒙特卡罗方法等场合中十分有用。实数矩阵的Cholesky分解由安德烈·路易·科列斯基(英语:André-Louis Cholesky)最先发明。实际应用中,Cholesky分解在求解线性方程组中的效率约两倍于LU分解。

Cholesky分解变形——LDL分解

经典Cholesky分解的一个变形是LDL分解,即 \[\mathbf {A} =\mathbf {LDL} ^{*}\] 其中,\(\mathbf {L}\)是一个单位下三角矩阵,\(\mathbf {D}\)是一个对角矩阵。

该分解与经典Cholesky分解犹有关系,如下:

\[\mathbf {A} =\mathbf {LDL} ^{*}=\mathbf {LD} ^{\frac {1}{2}}(\mathbf {D} ^{\frac {1}{2}})^{*}\mathbf {L} ^{*}=\mathbf {LD} ^{\frac {1}{2}}(\mathbf {LD} ^{\frac {1}{2}})^{*}\]

LDL变形如果得以有效运行,构造及使用时所需求的空间及计算的复杂性与经典Cholesky分解是相同的,但是可避免提取平方根。某些不存在Cholesky分解的不定矩阵,也可以运行LDL分解,\(\mathbf {D}\)中会出现负数元素。因此人们更倾向于使用LDL分解。对于实数矩阵,该种分解的形式可被改写成 \[\mathbf {A} =\mathbf {LDL} ^{\mathbf {T} }\] 此形式通常称为LDLT分解(或LDLT分解)。它与实对称矩阵的特征分解密切相关,因为对于实对称矩阵,存在特征分解\(\mathbf {A} =\mathbf {Q\Lambda Q}^T\)

拓展:埃米特矩阵

埃米特矩阵是对称矩阵在复数域的推广,将实对称矩阵的转置\(A=A^T\)升级为共轭转置\(A=A^H\),其中字母“H”来自埃米特的英文“Hermite”。

对称矩阵的性质在复数空间中由埃米特矩阵继承。

埃尔米特矩阵主对角线上的元素都是实数的,其特征值也是实数。埃尔米特矩阵是正规矩阵,因此埃尔米特矩阵可被酉对角化,而且得到的对角阵的元素都是实数。这意味着埃尔米特矩阵的特征值都是实的,而且不同的特征值所对应的特征向量相互正交,因此可以在这些特征向量中找出一组\(C^n\)的正交基。