0%

线性代数的几何理解

1. 几何上理解矩阵:作为一个变换函数

  • 列向量是对空间的基底的变换
  • 有$N$列代表着输入是$N$个基向量
  • 有$M$行代表着输出是用$M$个数代表的坐标

2. 几何上理解零空间

零空间、核,都描述的是一个东西

经过变换之后都变成零向量$\hat{0}$上的空间

也可以说是,已知变换矩阵$A$,求下面这个方程的解
$$
A\hat{x}=\hat{0}
$$

3. 几何上理解非方阵:升维或降维

非方阵是升维或者降维

  • 注意:升维后虽然在高维空间,但是张成的空间还是原来的维数

4. 几何上理解点积

经典解释:配对相乘并相加

几何解释:投影长度

从几何角度也能方便理解为何点积与顺序无关


那么问题来了,怎么理解这两种不同的解释之间的关系呢?为什么相应的坐标相乘和投影是一样的呢?

问题的关键在于对偶性:我们需要将矩阵和向量联系在一起看
$$
1 \times 2 \text { matrices } \longleftrightarrow 2 \mathrm{d}\text{ vectors}
$$

$$
\left[\begin{array}{ll}{1} & {-2}\end{array}\right]\longleftrightarrow \left[\begin{array}{c}{1} \ {-2}\end{array}\right]
$$

先介绍矩阵向量乘积:把向量放倒,$1\times2$的矩阵就是一个降维的投影,降维成一条直线,在这条直线上取一个单位向量$\hat{u}$

基底$\hat{i}$的变换等于到$\hat{u}$的投影,根据对称性,恰好等于$\hat{u}$到$\hat{i}$的投影,也就是$u_x$,同理对另一个基底也是一样的,因此,变换后的$\hat{i},\hat{i}$的位置就是$\left[\begin{array}{ll}{u_{x}} & {u_{y}}\end{array}\right]$

所以矩阵向量乘积可以理解为投影
$$
\left[\begin{array}{ll}{u_{x}} & {u_{y}}\end{array}\right]\left[\begin{array}{l}{x} \ {y}\end{array}\right]=u_{x} \cdot x+u_{y} \cdot y
$$
具体含义就是如图所示

那么点积,其实就是矩阵向量乘积另一种定义,把矩阵竖起来
$$
\left[\begin{array}{c}{u_{x}} \ {u_{y}}\end{array}\right] \cdot\left[\begin{array}{l}{x} \ {y}\end{array}\right]=u_{x} \cdot x+u_{y} \cdot y
$$

5. 几何上理解叉积

5.1. 常规解释

$$
\overrightarrow{\mathbf{v}} \times \overrightarrow{\mathbf{w}}=平行四边形的面积
$$

这里的平行四边形指的是以$\overrightarrow{\mathbf{v}}$和$\overrightarrow{\mathbf{w}}$为边的平行四边形

  • 如果v在w的右边,则面积是正的。反之面积为负
  • $\overrightarrow{\mathbf{v}} \times \overrightarrow{\mathbf{w}}=-\overrightarrow{\mathbf{w}} \times \overrightarrow{\mathbf{v}}$

三维的叉积如何计算?
$$
\left[\begin{array}{l}{v_{1}} \ {v_{2}} \ {v_{3}}\end{array}\right] \times\left[\begin{array}{l}{w_{1}} \ {w_{2}} \ {w_{3}}\end{array}\right]=\operatorname{det}\left(\left[\begin{array}{ccc}{\widehat{\imath}} & {v_{1}} & {w_{1}} \ {\hat{\jmath}} & {v_{2}} & {w_{2}} \ {\hat{k}} & {v_{3}} & {w_{3}}\end{array}\right]\right)
$$

  • 注意: 这里将向量写作矩阵的列,而教科书中大多数将向量写成矩阵的行。这两种做法没有差异,因为转置不改变行列式的值。这里只是为了更加直观
  • 第一列的元素比较奇怪,在下一小节中解释

5.2. 从线性变换解释

类比二位的点积情况

把第一列的元素理解成变量,后面两列理解成底面积,这样就可以把叉积理解成一个体积(行列式的几何意义)

  1. 还是利用对偶性,定义一个从三维到一维的线性变换

存在一个$1\times3$的矩阵来表示这个变换

  1. 找到对偶向量$p$

使得这个向量和一个向量点乘时,可以满足
$$
\left[\begin{array}{l}{p_{1}} \ {p_{2}} \ {p_{3}}\end{array}\right] \cdot\left[\begin{array}{l}{x} \ {y} \ {z}\end{array}\right]=\operatorname{det}\left(\left[\begin{array}{ccc}{x} & {v_{1}} & {w_{1}} \ {y} & {v_{2}} & {w_{2}} \ {z} & {v_{3}} & {w_{3}}\end{array}\right]\right)
$$

  1. 说明这个对偶向量的意义就是叉积

6. 几何上理解基变换

基变换是为了帮助我们理解如何在不同坐标系之间进行转化

以B基底在A中的坐标作为列向量的矩阵可以看作一个变换,将B坐标系中的向量转换为A中表示。相反的操作只要求逆就可以了

那么为什么要进行基变换这样的操作呢?

  • 有的坐标系不标准,对其进行旋转、平移操作需要重新定义
  • 因为我们平时定义的变换矩阵都是在标准的欧式坐标系下的,比如旋转90°:$\left[\begin{array}{ll}{0} & {-1} \ {1} & {0}\end{array}\right]$在其他坐标系下是不能使用的,为了能够复用这些矩阵,我们可以不标准的基底先转换成标准的基底,再转换回去

7. 几何上理解特征值与特征向量

如果特征值为1,特征向量也可以理解为旋转的旋转轴
$$
A \overrightarrow{\mathbf{v}}=\lambda \overrightarrow{\mathbf{v}}
$$

$$
(A-\lambda I) \overrightarrow{\mathbf{v}}=\overrightarrow{0}
$$

要找的是非零的v使得等式成立,回顾之前的定义,就需要前面的矩阵有零空间,秩要小于n,行列式等于0,因为只有这样,才能让v变成零向量。所以说,求解特征值、特征向量的过程就是求解有零空间的变换的过程

8. 几何上理解克莱姆法则

求解线性方程组

  • 高斯消元
  • 克莱姆法则

正交变换,也可以理解成旋转。两个向量的点积在正交变换之后保持不变

我们可以把不同轴上的坐标值理解成体积或者面积的高,底或底面积是由另外的几个单位基底构成的

为什么要把坐标值和面积或者体积联系起来呢?

  • 做矩阵变换后,面积会变化,但是面积伸缩的比例都等于给定的行列式。

也就是变换后的体积=原来的y乘变换的行列式
$$
\text{Signed Area}=\operatorname{det}(A) y
$$

$$
y=\frac{\text { Area }}{\operatorname{det}(A)}
$$

式子中的Area只需要把变换A中相对应的“高”换成变换后的输出,然后求行列式,自然就等于变换之后的体积或面积了

  • 因此,这种求y的方式本质上就是把y理解成单位体积或面积的倍数

9. 几何上理解抽象空间

行列式与特征向量的定义不依赖特定的坐标系

空间是什么?

函数其实是一种向量,因为向量和函数都有两种性质其实只有以下两个,或者说线性的严格定义

  • 可加性
    $$
    (f+g)(x)=f(x)+g(x)
    $$

  • 成比例
    $$
    (2 f)(x)=2 f(x)
    $$

对向量的线性变换也可以作用于函数上,对函数的线性变换也可叫做算子

  • 求导是线性的
  • $\frac{d}{d x}\left(x^{3}+x^{2}\right)=\frac{d}{d x}\left(x^{3}\right)+\frac{d}{d x}\left(x^{2}\right)$
  • $\frac{d}{d x}\left(4 x^{3}\right)=4 \frac{d}{d x}\left(x^{3}\right)$

当前空间:全体多项式

  • 基函数 $1,x^2,x^3….$

  • 求导的线性变换矩阵
    $$
    \left[\begin{array}{ccccc}{0} & {1} & {0} & {0} & {\cdots} \ {0} & {0} & {2} & {0} & {\cdots} \ {0} & {0} & {0} & {3} & {\cdots} \ {0} & {0} & {0} & {0} & {\cdots} \ {\vdots} & {\vdots} & {\vdots} & {\vdots} & {\ddots}\end{array}\right]
    $$

  • e.g

对一个函数求导

$$
\frac{d}{d x}\left(1 x^{3}+5 x^{2}+4 x+5\right)
$$

$$
\left[\begin{array}{ccccc}{0} & {1} & {0} & {0} & {\cdots} \ {0} & {0} & {2} & {0} & {\cdots} \ {0} & {0} & {0} & {3} & {\cdots} \ {0} & {0} & {0} & {0} & {\cdots} \ {\vdots} & {\vdots} & {\vdots} & {\vdots} & {\ddots}\end{array}\right]\left[\begin{array}{c}{5} \ {4} \ {5} \ {1} \ {\vdots}\end{array}\right]=\left[\begin{array}{c}{1 \cdot 4} \ {2 \cdot 5} \ {3 \cdot 1} \ {0} \ {\vdots}\end{array}\right]
$$
结果就是
$$
\frac{d}{d x}\left(1 x^{3}+5 x^{2}+4 x+5\right)=3 x^{2}+10 x+4
$$


所以数学家将向量的概念抽象出来,抽象成8条规则,只要满足这8条规则,就是向量空间了

这样的好处是

  • 相当于编程时的接口,大家只要满足一定规则就可以利用
  • 方便数学家抽象地研究向量空间,任何新的发现都可以运用到其他向量空间中