对称矩阵的例题解法（把矩阵看作一个算子）

晚笙夜夜歌 2022-11-23 16:48:30

对称矩阵的例题解法（把矩阵看作一个算子）(1)

对称矩阵是沿对角线对称的矩阵。它是一个自伴算子（self-adjoint operator）（把矩阵看作是一个算子并研究其性质确实是一件大事）。虽然我们不能直接从对称性中读出几何属性，但我们可以从对称矩阵的特征向量中找到最直观的解释，这将使我们对对称矩阵有更深入的了解。

对称矩阵的例题解法（把矩阵看作一个算子）(2)

常见的例子是单位矩阵。一个重要的例子是：

对称矩阵的例题解法（把矩阵看作一个算子）(3)

对称矩阵的一个例子

然而，虽然定义简单如斯，但却意义非凡。在这篇文章中，我们将看一看它们的重要属性，直观地解释它们，并介绍其应用。

厄米特矩阵（The Hermitian matrix）是对称矩阵的复扩展，这意味着在厄米特矩阵中，所有元素都满足：

对称矩阵的例题解法（把矩阵看作一个算子）(4)

厄米特矩阵的共轭转置与自身相同。因此，它具有对称矩阵所具有的所有性质。

对称矩阵的例题解法（把矩阵看作一个算子）(5)

厄米特矩阵的一个例子

在这篇文章中，我主要讨论的是实数情况，即对称矩阵，以使分析变得简单一些，同时在数据科学中，我们遇到的也大都是实矩阵，因为我们要处理现实世界的问题。

对称矩阵的最重要的性质

本节将介绍对称矩阵的三个最重要的性质。它们涉及这些矩阵的特征值和特征向量的行为，这是区别对称矩阵和非对称矩阵的基本特征。

性质1. 对称矩阵有实数特征值

这可以很容易地用代数法证明（正式的、直接的证明，而不是归纳法、矛盾法等）。首先，快速回顾一下特征值和特征向量。

矩阵A的特征向量是，在A作用于它之后，方向不变的向量。方向没有改变，但向量大小可以改变。
实数特征值给我们提供了线性变换中的拉伸或缩放信息，不像复数特征值，它没有 "大小"。

向量被缩放的比例是特征值，我们用λ表示。因此我们有：

对称矩阵的例题解法（把矩阵看作一个算子）(6)

式1.1

证明是相当容易的，但有一些重要的线性代数知识，所以我们还是要一步一步地来。

1.1通过x的共轭转置xᴴ得到：

对称矩阵的例题解法（把矩阵看作一个算子）(7)

式1.2

需要注意的是，λ是一个标量，这意味着涉及λ的乘法是可交换的。因此，我们可以把它移到xᴴ（x的转置，上标H可能不显示）的左边：

对称矩阵的例题解法（把矩阵看作一个算子）(8)

式1.3

xᴴx是一个欧几里得范数（ Euclidean norm），其定义如下：

对称矩阵的例题解法（把矩阵看作一个算子）(9)

公式1.4

在二维欧几里得空间中，它是一个坐标为（x_1，...，x_n）的向量的长度。然后我们可以把公式1.3写成：

对称矩阵的例题解法（把矩阵看作一个算子）(10)

公式1.5

由于共轭转置（算子H）与普通转置（算子T）的原理相同，我们可以利用xᴴA=（Ax）ᴴ的特性。

对称矩阵的例题解法（把矩阵看作一个算子）(11)

公式1.6

(Ax)ᴴ等于什么？这里我们将再次使用Ax = λx的关系，但这次(Ax)ᴴ将留给λ的复共轭，在λ上加一横表示共轭。

对称矩阵的例题解法（把矩阵看作一个算子）(12)

式1.7

我们在式1.3中见过xᴴx，代欧几里得范数后得到：

对称矩阵的例题解法（把矩阵看作一个算子）(13)

式1.8

这导致了λ和它的复共轭相等：

对称矩阵的例题解法（把矩阵看作一个算子）(14)

式1.9

只有在一种情况下，式1.9才有效，即λ是实数。这样一来，我们就完成了证明。

性质2. 特征值所对应的特征向量是正交的

这个证明也是一个直接的形式证明，但很简单。首先我们需要清楚目标，即：

对称矩阵的例题解法（把矩阵看作一个算子）(15)

式1.10

考虑一个对称矩阵A，x_1和x_2是A的特征向量，对应于不同的特征向量（我们需要这个条件的原因将在稍后解释）。根据特征值和对称矩阵的定义，我们可以得到以下公式：

对称矩阵的例题解法（把矩阵看作一个算子）(16)

式1.11和式1.12

现在我们需要证明式1.10。让我们试着把x_1和x_2放在一起-。在左边用 (Ax₁)ᵀ乘以x₁ᵀ：

对称矩阵的例题解法（把矩阵看作一个算子）(17)

式1.13

在式1.13中，除了对称矩阵的特性外，还用到了另外两个事实。

矩阵乘法符合结合律（可以用结合律运算）
矩阵-标量乘法是可交换的（可以自由移动标量）。

然后，由于点积是可交换的，这意味着x₁ᵀx₂和x₂ᵀx₁是等价的，所以我们有：

对称矩阵的例题解法（把矩阵看作一个算子）(18)

式1.14

其中x_1∙x_2表示点积。如果λ_1≠λ_，那么x_1∙x_1=0，这意味着这两个特征向量是正交的。如果λ_1 = λ_2，则有两个不同的特征向量对应于同一个特征值。由于特征向量在(A-λI)的零空间（表示为N(A-λI)），当一个特征向量对应于多个特征向量时，N(A-λI)的维数大于1。在这种情况下，我们对这些特征向量有无限多的选择，我们总是可以选择它们是正交的。

显然，有些情况下，实数矩阵有复数特征值。这发生在旋转矩阵上。为什么会这样呢？假设Q是一个旋转矩阵。我们知道，特征向量在被Q作用后不会改变方向。但如果Q是一个旋转矩阵，如果x是一个非零向量，x怎么可能不改变方向呢？结论是，特征向量必须是复数（好好想一想吧）。

二维空间中的旋转矩阵R(θ)如下所示：

对称矩阵的例题解法（把矩阵看作一个算子）(19)

旋转矩阵

R(θ)将一个向量逆时针旋转一个角度θ，它是一个具有复数特征值和特征向量的实矩阵。

性质3. 对称矩阵总是可对角化的（谱定理）

这也与对称矩阵的其他两个特性有关。这个定理的名字可能让人困惑。事实上，一个矩阵的所有特征值的集合被称为谱（ spectrum）。另外，我们可以这样想。

特征值-特征向量对告诉我们，在给定的线性变换之后，一个向量在哪个方向上被扭曲。

如下图所示，经过变换后，在v_1的方向上，图形被拉伸了很多，但在v_2的方向上却没有很大的拉伸。

一个可对角线化的矩阵意味着存在一个对角线矩阵D（对角线以外的所有元素都是零），使得P-¹AP=D，其中P是一个可逆矩阵。我们也可以说，如果一个矩阵可以写成A=PDP-¹的形式，那么该矩阵就是可对角的。

分解通常不是唯一的，但只有D中对角线上的元素的排列和P中特征向量的标量乘法才是唯一的。另外我们需要注意的是，无论矩阵是否对称，对角线化都等同于找到特征向量和特征值。然而，对于非对称矩阵，D不一定是正交矩阵。

这两个定义是等价的，但可以有不同的解释（这种分解使得求矩阵的幂非常方便）。第二个定义，A=PDP-¹，告诉我们A如何被分解，与此同时，第一个定义，P-¹AP=D，是告诉我们A可以被对角化。它告诉我们，有可能将标准基（由单位矩阵给出）与特征向量对齐（align）。这是由特征向量的正交性决定的，这在性质2中显示。

这个 "将标准基与特征向量对齐 "听起来非常抽象。我们需要思考这个问题：矩阵变换对单位基做了什么？

由基α = {v_1，…，v_n}组成的矩阵将一个向量x从标准基变换到由基α构成的坐标系，我们用Aα表示这个矩阵。因此，在对角化的过程中（P-¹AP=D），P将一个向量从标准基送入特征向量，A对其进行缩放，然后P⁻¹将该向量送回标准基。从向量的角度来看，坐标系与标准基对齐。

这种对齐方式如图1.16所示，本例中使用的矩阵为：

式1.17

其中V是一个列向量长度为1的矩阵，每一个都对应于对角线矩阵中的特征值。至于计算，我们可以让Matlab中的eig来完成。

这个性质直接遵循谱定理（ spectral theorem）：

如果A是厄米特矩阵，存在一个由A的特征向量组成的V的正态基，每个特征向量都是实数。

该定理直接指出了将一个对称矩阵对角化的方法。为了直接证明这个性质，我们可以使用矩阵大小（维度）的归纳法。。
正定性
这些性质什么时候有用？甚至在正式研究矩阵之前，它们已经被用于解决线性方程组很长时间了。把矩阵看成是运算子，线性方程的信息就储存在这些运算子中，矩阵可以用来研究函数的行为。

除了对称性之外，矩阵还可以有一个更好的性质就是正定性。如果一个对称矩阵是正定的，它的所有特征值都是正的。如果它的所有特征值都是非负的，那么它就是一个半正定矩阵。对于一个正定矩阵，很明显要求它是对称的，因为性质1，因为只有当一个数字是实数时，问它是正数还是负数或有多大才有意义。

特征值、特征向量和函数行为

这方面的一个很好的应用是海赛矩阵（Hessian matrix），我们将以此为例来证明使用矩阵来分析函数行为。当我们试图找到一个局部极值时，发现海赛矩阵是正定的将非常有用。海赛矩阵是一个由实数函数的二阶偏微分组成的矩阵。形式上，海赛矩阵被定义为：

我们称H(x)为f的海赛矩阵，它是一个n乘n的矩阵。它与以下内容相同：

这对函数的行为有什么影响？我们来看看一个超级简单的例子。考虑一下函数：

海赛矩阵的计算方法如下：

式2.3

由于它是一个对角矩阵，并且迹（对角线上的元素之和）等于特征向量之和，我们可以立即看到其中一个特征值是2，另一个是-2。它们对应于特征向量v₁ = [1, 0]ᵀ和v₂ = [0, 1]ᵀ。这个矩阵是对称的，但不是正定的。因此，在整个ℝ²上没有局部极值，我们只能在x=0，y=0点上找到一个鞍点。这意味着在特征值为正的v_1方向上，函数增加，而在特征值为负的v_2方向上，函数减少。该函数的图像如下所示:

现在我们改变符号，将函数改为：

特征向量保持不变，但所有的特征向量都变成了正数。这意味着，在v_1的方向和v_2的方向上，函数都在增长。因此，可以找到局部最小值在x=0，y=0处，f(x,y)=0，这也是全局最小值。该图为：

总结
矩阵在许多领域都有广泛的应用。在处理矩阵时，经常会遇到正定义性、特征向量、特征值、对称矩阵等概念。在这篇文章中，介绍了对称（厄米特）矩阵的三个最重要的性质，它们与矩阵的特征向量和特征值有关。这些性质是以几何学方式解释的，但也包括一些代数证明。最后，介绍了一个使用矩阵来分析函数行为的例子。
,