前不久開源了一個插件化移動端運動效果庫 finger-mover,說到運動效果,不得不提到CSS3的 transform
,也就是變換。這篇文章概括了在實現 finger-mover 時對 transform
的理解與總結。
注:文中的圖片多數截取自視頻:線性代數的本質,也強烈建議大家系統的觀看這套視頻。另外如果文中有誤請不吝指教。
文章結構如下:
* 矩陣
* 概述
* 向量
* 什么是向量
* 基向量
* 線性變換
* 如何用數值描述線性變換?
* 回到 CSS 的 transform
我不知道大家所理解的矩陣是怎樣的,但我所理解的矩陣是:該陣法免疫法術攻擊且100%反傷對方隨機一個單位(回合制游戲)。
以上描述是在小學時代的理解,現在可能有所不同,慢慢說......
矩陣
概述
矩陣,是線性代數中涉及的內容,線性代數在科學領域有很多應用的場景,如下:
大部分同學在大學時期應該都學過一本叫做線性代數的書,如果沒猜錯的話,你們的老師在教學的時候大多都是概念性的灌輸,比如矩陣乘法如何運算,加法如何運算,大家只要記住就ok了,但是大部分同學都不理解,為什么矩陣的乘法要這樣算?矩陣乘法的意義是什么?,特別是我們搞計算機的,如果有做過 2D/3D 變換的同學一定聽說過矩陣,比如在前端的CSS中,使用 transform
做 2D/3D 的變換,其中就應用到了矩陣的知識,這篇文章并不是一篇數學性質的文章,所以大家不要看了感覺一陣眩暈,這篇文章的目的在于:從矩陣與空間之間的關系講述:為什么矩陣可以應用在空間操作(變換)。或者用一句大白話:這玩意兒怎么就能讓div
翻過來,轉過去,扭的他爹都不認識他的。
先看一段 css 代碼:
/* 2D */
transform: matrix(1, 0, 0, 1, 0, 0);
/* 3D */
transform: matrix(1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1);
上面兩行 css 代碼其實什么變換都不會做,因為那是變換的默認狀態,即沒有變換。但是其中使用到了 matrix
,翻譯成中文叫做:矩陣。如果有深入研究過 css 的同學對這兩行代碼也許不陌生,但是大多數人在使用 transform
變換時很少直接使用 matrix
矩陣,除非你不想讓人看懂你在做些什么鳥變換...,所以更多的時候,我們會使用類似如下語法:
transform: translateX(100px) rotateZ(30deg);
如上代碼所示,一目了然,要做什么變換大家一看就知道了。但其實,這只是一個語法糖,其底層依然使用的是 matrix
。
如果想要理解矩陣為何可以應用到 2D/3D 變換,那么只從數值水平的角度理解是不夠的,你需要從幾何的角度去理解矩陣,這存在著根本性的差異。而這,也就是本篇文章的真正意義。
不過,這需要我們先了解一些必要的基本概念,這些概念至關重要,首先就是向量
向量
什么是向量
既然矩陣是線性代數的一部分,那么就不得不提到 向量,因為向量是線性代數最基礎、最根源的組成部分,所以我們要先搞清楚,向量是什么?我說過,這篇文章不會很“數學”,所以大家不要被嚇到。用一句話描述向量是什么:
向量:空間中的箭頭
這個在大家的印象里應該很好理解,這個箭頭由兩個因素決定:方向
和 長度
,我們先把目光局限在二維空間下,如圖:
上圖中,在一個坐標系中畫了四個不同長度和方向的箭頭,每個箭頭從原點發出,他們代表了二維空間中的四個向量,在線性代數中,向量通常以原點作為起點。
如果你已經理解了“向量是空間中的箭頭”這種觀點,下面我們再進一步,我們重新用一句話來描述向量:
向量:是有序的數字列表
假設大家對坐標系的概念都有所了解,我們還是把目光局限在二維空間,在坐標系中任意選取單位長度,這樣我們就能夠使用一個一個的刻度來標刻這個坐標系,選取特定的方向為x/y軸的正方向,那么不難看出,每一個向量,都可以用唯一的一個坐標來表示,同樣的,坐標系中的每一個坐標都對應著一個唯一的箭頭(向量),如下圖:
在坐標系中,由于坐標通常用來標示一個點,如 P(2, 8)
表示點 P 的坐標為 (2, 8)
,為了區分點和向量,在表示向量時,我們通常把坐標豎著寫,然后用一對兒中括號來描述,如上圖中的:
在三維空間也是一樣的道理,如下圖,我就不做重復的解釋,唯一不同的是,每一個向量由 x/y/z 三個數字組成的坐標來表示:
對于向量,你只需要知道它是“空間中的箭頭”或者“有序的數字列表”這就足夠了,怎么樣?不難理解吧,我們繼續往下看,在坐標系中存在一種特殊的向量,我們稱之為 基向量。
基向量
基向量,也叫單位向量,是單位長度為1的向量,如下圖中:i帽
和 j帽
就是這個二維坐標系的基向量:
對于向量,我們就先介紹到這里,這已經足夠了。除了向量,還有一個概念需要大家了解,即線性變換。
線性變換
“變換”本質上是“函數”的一種花哨的叫法,玩編程的都知道函數,與在數學中的概念類似,函數接收輸入的內容,并輸出對應的結果,如圖:
變換也是同樣的道理,只不過接收向量作為輸入,并輸出變換后的向量:
既然 “變換” 與 “函數” 本質相同,那么為什么叫變換而不叫函數呢?這實際上就暗示了我們,你可以把這個輸入輸出的過程,看做一個向量從初始狀態到最終狀態的一個變化過程,如下圖:
現在,我們把情況宏觀一下,目前只討論一個向量的變換,我們知道,二維空間的一整個平面,可以看做是由無數個向量組成(或者無數個點組成,因為每一個點唯一標識一個向量,所以這里說平面由無數個向量組成),假如這無數個向量同時做相同的變換,那其實就可以看做是平面的變換,如下圖:
變換前:
變換后:
不過,并非所有變換都叫做線性變換,線性變換必須要滿足下面兩個條件:
- 1、直線在變換后仍然為直線,不能有所彎曲
- 2、原點不能移動
如下變換,就不是一個線性變換,因為直線變成了曲線:
如何用數值描述線性變換?
在上一小節中我們知道,空間的變換也可以說是向量的變換,而向量在空間中,可以用一組有序的數字列表來表示(即向量的坐標),所以向量變換前后,必然會引起“有序數字列表的變換”,那么我們是否可以用數字去描述變換呢?
之前在向量一節中,我們了解過基向量,單位長度為1,其實空間中的任意一個向量我們都可以看做是:基向量變換后的和向量,如下圖:
向量 <b>v</b> 的坐標是
3
和 -2
看做兩個標量,也就是純數字,那么向量 <b>v</b> 可以看做是基向量被標量縮放后相加得到的和向量: <b>v</b> = 3<b>i</b> + (-2<b>j</b>)
了解了這些,我們現在就通過一個例子,來認識一個至關重要的事實,假如我們有向量 <b>v</b> = -1<b>i</b> + 2<b>j</b>,如下圖:
此時,基向量 <b>i</b> 的坐標是 (1, 0)
【注意:為了方便,這里就用圓括號代表向量的坐標,下同】,基向量 <b>j</b> 的坐標是 (0, 1)
,假設經過了某些變換之后,基向量 <b>i</b> 的坐標變為 (1, -2)
,基向量 <b>j</b> 的坐標變為 (3, 0)
,如下圖:
那么變換后的向量 <b>v</b> 依然滿足 <b>v</b> = -1<b>i</b> + 2<b>j</b>,如下:
以上例子所描述的事實,實際上是線性變換的性質的推論,該性質可以從幾何角度表述為:線性變換后的網格平行且等距。
既然線性變換前后都滿足該線性關系:<b>v</b> = -1<b>i</b> + 2<b>j</b>
那么很容易根據變換后 i帽
和 j帽
的坐標推算出變換后 <b>v</b> 的坐標:
也就是 (5, 2)
,即:
那么我們是否可以認為,給定任意一個向量,其坐標 (x, y)
,我們可以通過變換后的基向量的坐標推斷出該向量變換后的坐標呢?答案是肯定的,假如基向量變換后的坐標 i帽
和 j帽
如下圖:
那么任意向量 (x, y)
在經過變換后的坐標計算如下:
這告訴我們另外一個事實,<b>二維空間的線性變換僅由四個數字完全確定</b>,這四個數字就是基向量 <b>i</b> 變換后 <b>i帽</b> 的坐標,以及基向量 <b>j</b> 變換后 <b>j帽</b> 的坐標,如下圖:
是不是很酷?只需要四個數字,我們就確定了二維空間的一個變換。通常,我們把這四個數字放到一個 2 x 2
的格子中,我們稱之為 2 x 2
矩陣:
現在,當你再看到 2 x 2
矩陣的時候,你的第一幾何直觀反映應該是:它描述了一個二維空間的變換。
我們把情況一般化,如下圖:
我們有一個 2 x 2
的矩陣 [a, c] [b, d]
,其中 [a, c]
是基向量 <b>i</b> 變換后的坐標,[b, d]
是基向量 <b>j</b> 變換后的坐標,那么根據這個變換,以及線性變換的性質,我們可以推斷出任意向量 [x, y]
變換后的坐標:
<p class="tip">
實際上,這就是數學家之所以這樣定義 矩陣的向量乘法 的原因。
</p>
到了這里,讓我們整理一下思路,首先,對于一個 2 x 2
的矩陣,你的直觀幾何感受應該是,第一列的兩個數是對基向量 <b>i</b> 的變換,第二列的兩個數是對基向量 <b>j</b> 的變換,這四個數字組成的 2 x 2
的矩陣,描述了一個對空間的線性變換,我們可以根據這個變換推斷出任意一點(或者任意向量)變換后的坐標。
其實我么你還可以換一個角度考慮,我們就單純的把 2 x 2
矩陣叫做變換,那么向量與矩陣的乘積,就要可以看做是該向量應用了這個變換。其實,這就是矩陣向量乘法的幾何意義。
回到 CSS 的 transform
說了一大堆,是時候回到 CSS
的 transform
,我們來看一下2D變換下 transform
屬性的 matrix
寫法:
transform: matrix(a, b, c, d, e, f);
在文章開始,我們知道各個參數默認值如下:
transform: matrix(1, 0, 0, 1, 0, 0);
有的同學可能會問:說好的 2 x 2
矩陣也就是四個數字就能確定一個二維空間變換,你這里明明有6個數啊,其實,transform
2D變換是一個 3 * 3
的矩陣,為什么是這樣?因為:位移(translate),前面我們說過,線性變換要滿足其中一個特點:原點不能移動,但是位移卻使原點發生了移動,所以 2 x 2
矩陣滿足不了需求,只能再加一列,也就是 3 x 3
的矩陣。
把 matrix
中的 a b c d e f
放到一個 3 x 3
的矩陣中應該是這樣的:
其實,在沒有位移(translate)
的情況下,[a, b] [c, d]
四個數字組成的 2 x 2
矩陣是完全可以描述2D變換的,現在我們只看由 [a, b] [c, d]
組成的 2 x 2
矩陣:
我們把 a b c d
四個數字使用默認值替換一下,即:a = 1
,b = 0
,c = 0
,d = 1
,如下:
通過之前的介紹,我們在看到這個矩陣的時候,應該知道,第一列的坐標 (1, 0)
應該是基向量 <b>i</b> 變換后的坐標,但是基向量 <b>i</b> 在變換前的坐標就是 (1, 0)
,也就是說沒有任何變換,同理,基向量 <b>j</b> 也沒有任何變換,所以說,這就是 a b c d
默認值設定為下面代碼所示的值的原因:
transform: matrix(a, b, c, d, e, f);
// a b c d 默認值為 1 0 0 1
transform: matrix(1, 0, 0, 1, e, f);
那么大家想想一下,我們把 a
的值從 1
變為 2
會發生什么?如果把 a
的值從 1
變為 2
那么矩陣如下:
也就是說,基向量 <b>i</b> 的坐標從 (1, 0)
變成了 (2, 0)
,這是在干什么?是不是基向量 <b>i</b> 被放大為了原來的二倍?舉一個通俗的例子:原本單位長度1代表20px,被放大后單位長度1則代表40px。同樣的,當我們把 a
的值從 1
變為 0.5
則意味著把基向量 <b>i</b> 縮小為原來的一半。事實上:在 transform: matrix()
中,修改 a
的值,就是在改變 x
軸方向的縮放比例:
transform: matrix(2, 0, 0, 1, 0, 0);
/* 等價于 */
transform: scaleX(2);
相信大家已經知道了,修改 d
的值,就是改變 y
軸的縮放比例:
transform: matrix(1, 0, 0, 4, 0, 0);
/* 等價于 */
transform: scaleY(4);
那么旋轉要如何修改 matrix
中的值呢?其實,想要知道如何修改 a b c d
的值,只需要知道,旋轉后基向量 <b>i</b> 和 <b>j</b> 的坐標就可以了,將旋轉后的坐標對號填入就可以得到變換矩陣,下面,我們就來看看如何確定旋轉后基向量 <b>i</b> 和 <b>j</b> 的坐標。
我們知道,在 web
開發中的坐標系和數學中的坐標系在正方向的選取上不太一致,在大家所熟悉的坐標系中,正方向的選取如下:
而在 web
開發中,坐標系的正方向選取是這樣的:
假設我們將其順時針旋轉 45 度,如下圖:
假設,上圖中我們旋轉的是單位向量,那么旋轉后單位向量 <b>i</b> 的坐標應該是 (cosθ, sinθ)
,單位向量 <b>j</b> 的坐標應該是 (-sinθ, cosθ)
,所以如果用矩陣表示的話,應該是這樣的:
如果寫到 matrix
里,自然就是下面這個樣子:
transform: matrix(cosθ, sinθ, -sinθ, cosθ, 0, 0)
所以,如果我們要順時針旋轉 45 度,下面兩種寫法是等價的:
/*
* Math.cos(Math.PI / 180 * 45) = 0.707106
* Math.sin(Math.PI / 180 * 45) = 0.707106
*/
transform: matrix(0.707106, 0.707106, -0.707106, 0.707106, 0, 0)
/* 等價于 */
transform: rotate(45deg);
通過上面縮放和旋轉的例子,我們已經知道了,2 x 2
的矩陣確實能夠描述二維空間的變換,這也就是矩陣能夠操作空間的原因。在 transform
中,除了縮放(scale
)、旋轉(rotate
) 還有傾斜(skew
),對于傾斜,類似于我們尋找旋轉后基向量的坐標一樣,你只需要根據傾斜所定義的變換規則,找到基向量變換后的坐標就可以了,實際上傾斜對應如下規則:
transform: matrix(1, tan(θy), tan(θx), 1, 0, 0);
大家自己拿只筆在紙上畫一畫應該就能搞清楚傾斜在做什么樣子的變換。
無論 縮放(scale
)、旋轉(rotate
) 還是傾斜(skew
),他們都不會是原點發生改變,所以使用 a b c d
四個數字組成的矩陣完全可以描述,但是不要忘了,我們還有一個 位移(translate
),這時,就不得不提到 e f
了,我想我不說大家也都知道了,e f
分別代表了 x y
方向的位移,事實也如大家所想:
transform: matrix(1, 0, 0, 1, 100, 200)
/* 等價于 */
transform: translateX(100px) translateY(200px);
至此,transform
使用 3 x 3
矩陣:
除了2D變換,還有3D變換,在 transform
中,使用 4 x 4
的矩陣描述3D變換,但實際上,三維空間的線性變換只需要一個 3 x 3
的矩陣就可以描述了,那么為什么搞了一個 4 x 4
矩陣呢?實際上這和我們在將二維空間的變換使用 3 x 3
矩陣的道理是一樣的,那就是位移。
我們來看一下3D變換的 matrix
默認值:
transform: matrix(a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p);
transform: matrix(1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1);
這十六個數字就是 4 x 4
矩陣的 16 個數值:
如果換成對應數字,是這樣的:
類似于我們講解 2D 變換一樣,其中由
3 x 3
矩陣用來描述空間的 3D 線性變換,如:rotateX
rotateY
scaleZ
等等,注意:rotateZ
是 2D 變換哦。
而 m
n
o
則分別用來描述位移:translateX
translateY
translateZ
。