正交矩阵和施密特正交化
正交矩阵及其性质
【标准正交】(Orthonormal vectors):满足如下条件的向量
比如如果
对于投影矩阵
(1)
(2)
Recall:我们先前提到的最小二乘法求解,将
【(标准)正交矩阵】(orthogonal matrix):标准正交的方阵即为正交矩阵。比如
再比如
再比如
长方形矩阵
正交矩阵的性质:
, ,最典型的比如置换矩阵;- 行列式的值必为
或 ;- 为
时,称为特殊正交矩阵,即【旋转矩阵】; - 为
时,称为【瑕旋转矩阵】(improper rotation matrix),即旋转+镜射。从化学结构对称性的角度看,就是 symmetry,即 rotation of perpendicular mirror reflection。我理解的话,此时的正交矩阵等于纯旋转矩阵乘以一个纯镜射矩阵,而这里的纯旋转矩阵、镜射矩阵也都是正交矩阵。更具体的例子,比如将unchanged point放在三维坐标原点,那么沿着 轴旋转 ,然后做 面的反射,这样的旋转反射可以表示为矩阵
- 注意,瑕旋转矩阵的旋转角度可能为零(360度),那么此时瑕旋转矩阵等同于【镜射矩阵】。
- 为
- 作为一个线性变换,是【保距映射】,具体例子为旋转与镜射,此处是指欧式距离。
- 正交矩阵乘一个向量的结果是:把这个向量反射到某个平面并且/或者旋转它,不会改变向量的长度。
- 复特征值模长必为
。
正交矩阵与群:
xx补充
正交矩阵与矩阵分解:
- SVD分解中,两次旋转操作,都对应正交矩阵。
- 补充xxxx
Gram–Schmidt process
【格拉姆-施密特正交化】:两个线性无关的向量
施密特的贡献:如果我们有一组正交基
将
如果多出来一个线性无关的向量
注:正交化本质就是扣掉该向量在所有其他向量上的分量,这个分量可以通过投影矩阵的形式(最简单的形式,分母是数字,杀鸡用牛刀),也可以直接想成向量内积的形式去计算。总而言之,扣除分量之后得到的新向量和其他向量张成空间垂直,或者说新向量与其他向量每一个都垂直。这样将每个向量都这样处理,然后归一化,即可得到正交化的向量组,即一组标准正交基。
例如 :
QR分解
换一种思路理解线性无关向量的标准正交化
前面我们是用施密特正交化公式的方法来将多个线性无关的向量进行标准正交化(不改变列空间),但是真正学习线性代数的可不喜欢这种方法。我们先前学习了
采用
行列式和代数余子式
行列式的初等性质
(1)
(2) 交换行列式的两行,得到的行列式值要变号。也就是说对于置换矩阵来说,如果行交换的总次数为偶数,那么最终不变号,如果行交换的总次数为奇数,那么行列式值就要变号。
(3)
(3-a)如果在矩阵的一行乘以
(3-b) 行列式是“行列式的行”的线性函数(每次只能在一行上做线性变换)
(4) 含有相同行的行列式值为
(5) 矩阵的
(6) 如果矩阵的某一行全部都是
(7) 三角阵的行列式的值等于其对角线上的数值(主元)的乘积。
(8) 当且仅当矩阵
我们先前理解的奇异矩阵就是消元操作之后,会有某一行全为零,于是行列式肯定等于零;另一方面,如果不是奇异矩阵,那么按照性质
(9)
如果
(10)
计算机计算行列式的方法:并不是按照显示的方式计算的,而是消元转化为三角阵,然后将主元相乘。例如(不考虑
)
推导行列式的计算方法(推导)
计算方法是基于前面性质的推论,特别是前三条性质。对于二阶矩阵
代数余子式(cofactor formula)的应用
代数余子式是用较小的矩阵的行列式来写出
原矩阵去掉
【拉普拉斯展开】(Laplace expansion):
【伴随矩阵】(Adjugate matrix)
代数余子式
三种计算行列式值的方法的复杂程度:消元法 < 代数余子式 < 行列式展开
【三对角阵】
它除对角线和对角线两侧相邻的元素之外,其他元素全为零。比如计算由1组成的4阶三对角阵
由1组成的n阶级三对角阵的行列式从1阶开始按照1、0、-1、-1、0、1进行循环。
三对角线性方程组,对于熟悉数值分析的同学来说,并不陌生,它经常出现在微分方程的数值求解和三次样条函数的插值问题中,具体参考这里。
【柯西-比内公式】(Cauchy–Binet formula):补充xx
克莱姆法则/逆矩阵/体积
二阶矩阵求逆矩阵的方法如下:
求解逆矩阵的公式(formula for
先给出答案(这里的
比如我们用
【克莱姆法则】(Cramer's rule for
如果
注:
(1) 相比消元法,这种克莱姆法则的计算效率更低。
(2) 克莱姆法则的应用实例见维基百科,可以更好地帮助理解。
矩阵行列式和体积的关系
以三阶为例,
(1) 如果矩阵
(2)如果矩阵
(3)交换矩阵的行,不会改变体积,因为行列式只是变号,绝对值是不变的,这对应于性质2。
(4)对于长方体,将其中一条边的长度翻倍,那么体积翻倍,正好对应于性质3a。
(5) 对于二阶行列式,其行列式的绝对值就是对应的平行四边形的体积。其二分之一,就是对应三角形的面积。考虑不过原点的情况
行列式是将矩阵的信息压缩成一个数,可以将“体积”视为它压缩后给出的信息。更多几何意义参见书籍。(参考线性代数的几何意义)
特征值和特征向量
如果
- 一般定义里面特征向量不能是零向量;
- 【特征子空间】:属于
的全体特征向量与零向量构成的集合,有的地方也叫【特征空间】; - 【主特征向量】:特征值最大的特征向量;
- 【谱】:矩阵特征值的集合;
- 【迹】(trace):对于
矩阵 ,它具有 个特征值(包含重复的特征值),并且它们的和等于矩阵对角线上元素的和,这个数值称为矩阵的迹。
常见矩阵的特征值/向量
(1)【投影矩阵】
如果矩阵
另一方面,对于垂直于该空间的向量
上面的投影空间和零空间,也就是两类特征向量各自张成的空间,这两个空间相互垂直。总而言之,投影矩阵
(2)【交换矩阵】
(3) 【反射矩阵】(Reflection matrix)
当蒙娜丽莎的图像左右翻转时,中间垂直的红色向量方向保持不变。而水平方向上黄色的向量的方向完全反转,因此它们都是左右翻转变换的特征向量。红色向量长度不变,其特征值为1。黄色向量长度也不变但方向变了,其特征值为-1。橙色向量在翻转后和原来的向量不在同一条直线上,因此不是特征向量。
下图给出了分别沿着
(4)【旋转矩阵】(Rotation Matrix)
二维旋转(沿着原点)
如果我们取
实例:逆时针90度旋转矩阵
三维旋转(沿着轴)
比如沿着
当然对于更复杂的旋转操作,可以分解为三个Basic rotations的合成:
(5)【伸缩矩阵】(Scaling Matrix):薄金属板关于一个固定点(看作原点)均匀伸展,使得板上每一个点到该固定点的距离翻倍。这个伸展是一个有特征值
三维情况,比如三阶方阵,对角线上的元素分别为
(6) 【剪切变换】(shear transformation):拓展,参考wiki
(7) 【挤压变换】(squeeze transformation):拓展,参考wiki
(6) 地球自转:地球的自转,每个从地心往外指的箭头都在旋转,除了在转轴上的那些箭头。考虑地球在一小时自转后的变换,地心指向地理南极的箭头是这个变换的一个特征向量,但是从地心指向赤道任何一处的箭头不会是一个特征向量。因为指向极点的箭头没有被地球的自转拉伸,它的特征值是1。
(7) 驻波——多维向量空间:一个两端固定的弦上的驻波可以视为特征向量的一个例子,振动弦的原子到它们在弦静止时的位置之间的带符号那些距离视为一个空间中的一个向量的分量,那个空间的维数就是弦上原子的个数。驻波的形状,或者更精确地表达,弦上每个原子位置的向量(垂直于弦的方向)组成的高维向量,随着时间的流逝不断变化。以任意时刻作为起点,经过时间
(8) 【Differential Operators】:见本页谈线性空间和线性算子章节,补充,,,,以及深入理解傅里叶变换-Tracholar
(9) 【特征函数-傅里叶变换】:补充,,,参考Eigenfunctions of the Fourier Transform-Caltech
(9) 【特征向量—特征脸是特征变量的例子】:在图像处理中,脸部图像的处理可以看作分量为每个像素的辉度的向量。该向量空间的维数是像素的个数。一个标准化面部图形的一个大型数据集合的协变矩阵的特征向量称为特征脸。它们对于将任何面部图像表达为它们的线性组合非常有用。特征脸提供了一种用于识别目的的数据压缩的方式。在这个应用中,一般只取最大那些特征值所对应的特征脸。
(10) 【特征向量—因子分析】:在因素分析中,一个协变矩阵的特征向量对应于因素,而特征值是因素负载。因素分析是一种统计学技术,用于社会科学和市场分析、产品管理、运筹规划和其他处理大量数据的应用科学。其目标是用称为因素的少量的不可观测随机变量来解释在一些可观测随机变量中的变化。可观测随机变量用因素的线性组合来建模,再加上“残差项。
(11) 【特征向量—分子轨道】:在量子力学中,特别是在原子物理和分子物理中,在Hartree-Fock理论下,原子轨道和分子轨道可以定义为Fock算子的特征向量。相应的特征值通过Koopmans定理可以解释为电离势能。在这个情况下,特征向量一词可以用于更广泛的意义,因为Fock算子显式地依赖于轨道和它们地特征值。如果需要强调这个特点,可以称它为隐特征值方程。这样地方程通常采用迭代程序求解,在这个情况下称为自洽场方法。在量子化学中,经常会把Hartree-Fock方程通过非正交基集合来表达。这个特定地表达是一个广义特征值问题称为Roothaan方程。
参考资料:
第一性原理计算的理论基础——赵纪军
怎样理解 Hartree-Fock Method?—知乎
(9) 【Hermitian Operators】,也叫自伴算子,其实就是复对称矩阵,其特征值都是实数,本征函数(向量)相互正交,而且本征函数是完备的。与物理系统的每一个可测量相对应的是量子力学算符。 算符之所以出现在量子力学中,是因为在量子力学里,我们需要用波函数来描述系统的运动状态。 常用算符 (参考:算符及其运算规则—知乎)
用更简单的话来说,量子力学中,矩阵代表力学量,矩阵的特征向量代表定态波函数(eigenstate),矩阵的特征植代表力学量的某个可能的观测值。
特征值的思想:很多人会问矩阵的特征值特征向量为什么这么神奇,可以把矩阵的操作变成一个简单的参数
特征值还有一个应用是作为降维的判据,比如在图像压缩过程中,极小的特征值会被赋值为0,以此节省存储空间,也便于其它操作。反映在图像上,降维后的图像基本轮廓依旧清晣,图像细节有所牺牲。
思想要点:矩阵的特征值要想说清楚还要从线性变换入手,把一个矩阵当作一个线性变换在某一组基下的矩阵,最简单的线性变换就是数乘变换,求特征值的目的就是看看一个线性变换对一些非零向量的作用是否能够相当于一个数乘变换,特征值就是这个数乘变换的变换比,这样的一些非零向量就是特征向量,其实我们更关心的是特征向量,希望能把原先的线性空间分解成一些和特征向量相关的子空间的直和,这样我们的研究就可以分别限定在这些子空间上来进行,这和物理中在研究运动的时候将运动分解成水平方向和垂直方向的做法是一个道理!参考特征值和特征向量的物理意义——数理溯源
特征值的求解
根据矩阵迹的特点,对于一个二阶矩阵,在已知一个特征值的条件下,由此可以得到另一个特征值。
对于一般情况
(1) 我们要求的
(2) 方程有非零解,说明矩阵
于是根据
Example-1: 一般方法求解特征值和特征向量的例子
根据行列式等于零
Example-2: 设 3 阶实矩阵
(反)对称矩阵和矩阵转置
对称矩阵的特征向量正交(主动选择)
设
- 对称矩阵永远有实数的特征值;
- 而反对称矩阵,即满足
的矩阵,具有纯虚数的特征值,旋转矩阵就是反对称阵。
转置之后矩阵特征值和特征向量的变化
我们前面提到的行列式的第十条性质有
特征向量,如果我们知道矩阵
韦达定理和矩阵特征值
【韦达定理】
先回顾一下我们初中学的韦达定理
如果矩阵的阶数是偶数,那么
所有特征值的乘积 = 行列式的值
首先我们很容易知道矩阵的行列式等于
退化矩阵
对于三角阵,特征值就是对角线上的元素。比如
补充xxx
我似乎在网上看到,有人说奇异矩阵就是退化矩阵,但是这里GS老师讲的是特征向量缺失的矩阵叫作退化矩阵,下面是GS老师举的退化矩阵的例子,显然这个矩阵并不是奇异矩阵
对角化和矩阵的幂
可对角化矩阵与对角阵
矩阵对角化的条件(Diagonalizing a matrix
如果矩阵
- 矩阵
和特征值构成的对角阵 相似,而且具有相同的特征值和特征向量; - 矩阵
和和其任意相似矩阵 一定具有相同的特征值,但是特征向量一般不同。
总结各种分解
- 消元法,
分解; - 施密特正交化,
分解; - 对角化,
分解。
特殊情况分析:对角化的条件是有
总结:
- 所有特征值不重复,则所有的特征向量线性无关,可以对角化;
- 有重复的特征值,那么可能特征向量线性无关,也可能线性相关,于是可能可以对角化,也可能不行。(可以对角化的例子就是单位矩阵;不可以对角化的例子就是我们前面提到的退化矩阵)
- 对于对角阵,一定可以对角化,而且对角化之后得到的矩阵
就是它自身。 - 对角化的好处:Diagonal matrices are much easier to work with than non-diagonal matrices. They're easier to multiply, easier to invert, and easier to understand how they'll affect the respective coordinates.
矩阵
- 右边乘以对角阵,我们要把矩阵
看作是一个个列向量,右边的对角阵同样切割成一列一列,每使用一列,相当于 ,也就是对矩阵 的列向量进行线性组合。最终得到的新矩阵,就是将矩阵 的每一个列向量前面乘上对应的系数。 - 左边乘以对角阵,我们把矩阵
看做是一个个行向量,左边的对角阵同样地切割成一行一行。用对角阵的每一行去乘以 ,相对于用那一行对矩阵 进行所有行向量的线性组合,然后得到新的行向量替代原来的那一行。于是最终得到的新矩阵,就是将矩阵 的每一行乘以对应的系数。 - 矩阵
是列向量或者行向量的情况:-
- 如果是列向量,那么只能左乘对角阵,得到的是列向量,相当于将同一行的对角阵元素和
中的元素相乘,然后推到右边只留下一列。 - 如果是行向量,那么只能右乘对角阵,得到的是行向量。相当于把行向量套在对角阵上,然后将二者压缩成一行,每一列上的两个元素相乘得到对应位置的新元素。
- 如果是列向量,那么只能左乘对角阵,得到的是列向量,相当于将同一行的对角阵元素和
-
矩阵的幂运算(Powers of )
如果我们进行的是
如果进行对角化,则有
差分方程—利用对角化后的幂运算
从给定的一个向量
我们将
【斐波拉契数列】:
如果我们使用计算机编程的方法,就是不断使用for循环,循环100次就得到最后的结果。但是我们其实可以从矩阵的角度去理解这个问题,似乎一下子不好想到,因为我们在前面的问题的讨论中是给出了相邻两项的矩阵关系,但是这里新的一项与前面的两项都有关系,不能直接套用,于是我们需要巧妙地构造新的项,也就是用
微分方程和
微分方程和
前面我们利用矩阵的对角化解决了差分问题,现在我们进一步学习用矩阵对角化(特征值+特征向量)来求解微分方程。我们首先讨论的是一阶常系数微分方程,将其转化为线性代数的问题进行处理。主要思路基于常系数线性微分方程的解是指数形式,而寻找其指数和系数就是线代主要研究的问题,会涉及到矩阵指数的运算
特征向量给出的是方向,前面的系数
重新理解微分方程
对于微分方程
【耦合】和【解耦】
耦合就是couple,解耦就是decouple。下面我们通过耦合和解耦表达式来反推上面的求解步骤。
下面我们来探求如何将上面左边部分和右边部分联系起来。一般来说,我们可以将这里的
因为先前我们讨论矩阵对角化的问题中,将矩阵
再谈解耦
我们已知的是
一阶线性微分方程的稳定性
(1) 特征值既可以是实数,也可以是复数范围,但是如果从复数范围考虑,实部必须小于零
(2) (非零)稳态:至少有一个特征值为
(3) 至少有一个特征值满足
阵指数函数(Matrix exponential
根据指数的幂级数(这里也是泰勒级数)的公式:
前面我们已经写出了矩阵指数的公式
二阶微分方程的矩阵表示
我们可以将二阶微分方程
再谈线性空间和线性算子
A linear space
- (zero)
is in . - (addition) if
and are in then so is . - (scalar multiplication) if
is in and is a scalar then is in .
线性空间的例子: (注:zero function is the function
(1)
Recall that a function is smooth if it is continuous and every derivative of it is also continuous We know from calculus that
(2)
Constant functions, and in particular the zero function, are polynomials. The sum of two polynomials is a polynomial, and a scalar multiple of a polynomial is a polynomial.
(3)
We already showed the set of smooth functions is a linear space. so we just need to deal with the periodicity requirement. The zero function is constant, so it is
(4)
In fact, it is equivalent to the space of
【Differential Operators】:A differential operator is a linear transformation
微分算子和矩阵类似。对矩阵来说,它是有限维的,其作用对象—向量也是有限维的,我们可以求解其特征项值和特征向量;对于微分算子来说,我们可以将其看作是一个"无限维的向量"(严格来说不是向量,而是某种线性变换),其作用对象也是无限维的函数,我们同样可以求解其特征值和特征向量。
微分算子的线性特性
求解下面实例的kernel及其dimension
A function is in the kernel of precisely when . So, the kernel is the space of constant functions. This is one dimensional.
核对应的满足 的 组成的集合,显然 ,其中 为任意常数。This is again one dimensional.
核对应的满足 的 组成的集合。The kernel of consists of solutions to the harmonic oscillator, so . It is two dimensional, since and form a basis for ker .
定理—kernel的阶数:The kernel of an
【特征函数】
微分算子
习题实例:有两个微分算子
(1) 求解
即求解
(2) Suppose
Suppose
(3) Use your answer to part (2) to find all functions of the form
The functions
(4) Find the generic solution to
Solution. The solutions to this differential equation are the same as ker
【特征多项式】(Characteristic Polynomial)
The characteristic polynomial of a differential operator
定理—微分算子的特征值/特征向量:Suppose
(1) The function
(2) If
(3) 对于齐次微分方程,即
(4) 对于最简单的情形
习题实例:Consider the differential equation
(1) Find the solutions of the form
特征多项式为
(2) Show that
(3) What is the general solution to the differential equation?
The differential operator
Recap. Suppose
(1) If
(2) If
参考资料:Math 21b