Table of Content

Tham khảo

I. Vector and Matrix

System of Linear Equations

Các cách giải

I.1. Introduction

Vector

Matrix

I.2. Vector Operations

Vector Addition – Cộng hai vector

I.3. Matrix Operations

Matrix-matrix multiplication

Transpose

Other Hadamard operations

argmin and argmax

III. Cosine Similarity

III.1. Dot Product

Dạng cơ bản – Chiếu lên trục tọa độ

Dạng tổng quát – Chiếu lên vector bất kỳ

Ý nghĩa hình học của dot product

Tính chất hình học

Ví dụ

III.2. Cosine Similarity

Định nghĩa

Tính chất

Important

Tham khảo

I. Vector and Matrix

System of Linear Equations

Hệ phương trình tuyến tính mô tả mối quan hệ giữa đặc trưng (Features) và nhãn (Label) thông qua một mô hình tuyến tính. Trong ví dụ này, chúng ta dự đoán Sales dựa trên chi phí quảng cáo ở các kênh TV, Radio, và Newspaper. Mô hình tuyến tính Phương trình tổng quát: $S a l es = a_{1} \times T V + a_{2} \times R a d i o + a_{3} \times N e w s p a p er + b$ Trong đó:

a₁, a₂, a₃: hệ số ảnh hưởng của từng kênh quảng cáo
b: hằng số (intercept), ở đây giả sử b = 0 để đơn giản hóa Bảng dữ liệu mẫu: |TV|Radio|Newspaper|Sales| |---|---|---|---| |230.1|37.8|69.2|22.1| |44.5|39.3|45.1|10.4| |17.2|45.9|69.3|12.0| Dạng hệ phương trình Từ dữ liệu, ta có hệ: a₁T₁ + a₂R₁ + a₃N₁ = S₁ a₁T₂ + a₂R₂ + a₃N₂ = S₂ a₁T₃ + a₂R₃ + a₃N₃ = S₃ Trong đó:
Tᵢ: giá trị quảng cáo TV ở dòng i
Rᵢ: giá trị quảng cáo Radio ở dòng i
Nᵢ: giá trị quảng cáo Newspaper ở dòng i
Sᵢ: doanh số (Sales) ở dòng i

Biểu diễn ma trận Hệ trên được viết gọn lại: a₁[T₁, T₂, T₃]ᵀ + a₂[R₁, R₂, R₃]ᵀ + a₃[N₁, N₂, N₃]ᵀ = [S₁, S₂, S₃]ᵀ Hoặc: A · x = b Với:

A = ma trận đặc trưng

$T_{1} T_{2} T_{3} R_{1} R_{2} R_{3} N_{1} N_{2} N_{3}$
x = vector hệ số $[a_{1}, a_{2}, a_{3}]^{T}$
b = vector kết quả [S₁, S₂, S₃]ᵀ ⇒ Việc viết dưới dạng ma trận giúp ta có thể giải hệ nhanh bằng các phương pháp đại số tuyến tính (nghịch đảo ma trận, phương pháp khử Gauss, hoặc dùng NumPy).

Các cách giải

Phương pháp Cramer

Áp dụng cho hệ có số phương trình = số ẩn $n \times n$ , ma trận $A$ khả nghịch.

Công thức:

$x_{i} = \frac{d e t ( A _{i} )}{d e t ( A )}$
- $A_{i}$ : ma trận thay cột thứ $i$ của $A$ bằng vector $b$ .
- Thích hợp cho hệ nhỏ, nhưng tính determinant tốn kém khi $n$ lớn.
Khử Gauss (Gaussian Elimination)

Biến đổi ma trận mở rộng $[A ∣ b]$ thành dạng tam giác trên, sau đó giải bằng thế lùi.

Quy trình:
1. Dùng phép biến đổi sơ cấp để đưa $A$ về dạng bậc thang.
2. Giải từ phương trình cuối cùng lên trên.
Ưu điểm: tính toán đơn giản, áp dụng được cho hệ vừa và lớn.

Nhược điểm: dễ sinh sai số số học khi ma trận gần suy biến.
Phân rã ma trận

Matrix factorization
- LU Decomposition:
  
  $A = LU$
  
  Với $L$ : ma trận tam giác dưới, $U$ : tam giác trên. Giải hệ bằng 2 bước thế tiến & lùi.
- Cholesky Decomposition:

I.1. Introduction

Vector

$n$ là một số tự nhiên
ℝ là tập hợp các số thực
$v$ là vector có độ dài $n$ , mỗi phần tử là số thực
Ký hiệu: $v \in R^{n}$ $v = v_{1} v_{2} v_{3} \in R R R = R^{3}$ Vector là ma trận 1 cột, là khối xây dựng cơ bản của ma trận. Khi học máy, vector thường biểu diễn đặc trưng hoặc trọng số.

Matrix

Ma trận có hình chữ nhật (hàng × cột)
Có $m$ hàng và $n$ cột
Dùng chữ cái in hoa để biểu diễn
Ký hiệu: $A \in R^{m \times n}$ $A = a_{11} a_{21} a_{31} a_{12} a_{22} a_{32} \in R R R R R R = R^{3 \times 2}$ Trong học máy, ma trận thường biểu diễn tập dữ liệu: mỗi hàng là 1 mẫu (sample), mỗi cột là 1 đặc trưng (feature).

I.2. Vector Operations

Vector Addition – Cộng hai vector

Cho hai vector: $v = v_{1} ⋮ v_{3}, u = u_{1} ⋮ u_{3}$ Phép cộng được định nghĩa: $v + u = v_{1} + u_{1} ⋮ v_{3} + u_{3}$ Code Python:

def add_vectors(vector1, vector2):
    '''
    Add corresponding elements between two vectors
    vector1 and vector2 are lists
    '''
    return [v1 + v2 for v1, v2 in zip(vector1, vector2)]

NumPy:

import numpy as np
x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])
print("data x \n", x)
print("data y \n", y)
# Cách 1: toán tử +
print("method 1 \n", x + y)
# Cách 2: hàm np.add
print("method 2 \n", np.add(x, y))

Output:
data x
[1 2 3 4]
data y
[5 6 7 8]
method 1
[ 6  8 10 12]
method 2
[ 6  8 10 12]

NumPy tự động vector hóa các toán tử, giúp xử lý nhanh trên mảng lớn mà không cần vòng lặp.

I.3. Matrix Operations

Matrix-matrix multiplication

Cho hai ma trận:

$A \in R^{m \times n}$
$B \in R^{n \times d}$ Tích ma trận: $C = A B \in R^{m \times d}$ Định nghĩa phần tử kết quả Phần tử $c_{ij}$ trong ma trận kết quả $C$ được tính theo công thức: $c_{ij} = \sum_{k = 1}^{n} a_{ik} \cdot b_{kj}$ Tức là: hàng thứ i của $A$ nhân từng phần tử tương ứng với cột thứ j của $B$ . Biểu diễn tổng quát $A B = a_{11} ⋮ a_{m 1} \dots ⋱ \dots a_{1 n} ⋮ a_{mn} \cdot b_{11} ⋮ b_{n 1} \dots ⋱ \dots b_{1 d} ⋮ b_{n d} = \sum a_{1 k} b_{k 1} ⋮ \sum a_{mk} b_{k 1} \dots ⋱ \dots \sum a_{1 k} b_{k d} ⋮ \sum a_{mk} b_{k d}$ Số cột của ma trận đầu tiên (A) phải bằng số hàng của ma trận thứ hai (B). Nếu không, phép nhân không xác định. Cài đặt Python:

def matrix_multiplication(matrix1, matrix2):
    '''
    Multiply matrix1 (m x n) with matrix2 (n x d)
    '''
    matrix1_nrows = len(matrix1)
    matrix1_ncols = len(matrix1[0])
    matrix2_nrows = len(matrix2)
    matrix2_ncols = len(matrix2[0])
    # Khởi tạo ma trận kết quả kích thước m x d
    result = [[0] * matrix2_ncols for _ in range(matrix1_nrows)]
    for i in range(matrix1_nrows):
        for j in range(matrix2_ncols):
            for k in range(matrix2_nrows):
                result[i][j] += matrix1[i][k] * matrix2[k][j]
    return result

Kiểm tra:

matrix1 = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]
matrix2 = [
    [1, 1, 2, 1],
    [1, 2, 1, 1],
    [1, 1, 2, 2]
]
result = matrix_multiplication(matrix1, matrix2)
for row in result:
    print(row)

Kết quả:

[6, 8, 7, 9]
[15, 20, 19, 21]
[24, 32, 31, 33]

Cài đặt NumPy:

import numpy as np
X = np.array([[1, 2],
              [3, 4]])
Y = np.array([[2, 3],
              [2, 1]])

Lưu ý phân biệt:

Thứ tự hàng × cột rất quan trọng
Trong học sâu, cần chú ý thứ tự khi nhân weight matrix × input

Transpose

Other Hadamard operations

argmin and argmax

Khi làm việc với vector hoặc ma trận, đôi khi ta không cần biết giá trị lớn nhất/nhỏ nhất, mà cần biết vị trí (index) của giá trị đó.

argmin: trả về chỉ số của phần tử nhỏ nhất
argmax: trả về chỉ số của phần tử lớn nhất $argmin_{i} (x) = {i \in D ∣ x_{i} \leq x_{j} với mọi j \in D}$ $argmax_{i} (x) = {i \in D ∣ x_{i} \geq x_{j} với mọi j \in D}$ Ví dụ: $x = [4715]$ Tìm index nhỏ nhất:

import numpy as np
x = np.array([4, 7, 1, 5])
result = np.argmin(x)
print(result)  # Output: 2

image 3 21.png → Phần tử nhỏ nhất là 1, nằm ở vị trí chỉ số 2 Tìm index lớn nhất:

result = np.argmax(x)
print(result)  # Output: 1

image 4 17.png → Phần tử lớn nhất là 7, nằm ở vị trí chỉ số 1

III. Cosine Similarity

III.1. Dot Product

Tích vô hướng (dot product) là phép toán cơ bản giữa hai vector, trả về một số thực thể hiện mức “thẳng hàng” giữa chúng. Nó cũng chính là độ dài hình chiếu của một vector này lên một vector khác (nếu đã chuẩn hóa). Ví dụ đơn giản: Giả sử bạn có một học sinh được đánh giá qua 3 kỹ năng:

Kỹ năng	Điểm (x)	Trọng số (w)
Kỹ năng đọc	8	0.2
Kỹ năng viết	6	0.3
Kỹ năng tính toán	9	0.5
Tổng điểm trung bình có trọng số:
$Score = 0.2 \cdot 8 + 0.3 \cdot 6 + 0.5 \cdot 9$
Đây chính là tích vô hướng giữa 2 vector:
$w = 0.2 0.3 0.5, x = 869 \Rightarrow w \cdot x = 0.2 \cdot 8 + 0.3 \cdot 6 + 0.5 \cdot 9 = 1.6 + 1.8 + 4.5 = 7.9$
⇒ Tích vô hướng $w \cdot x = 7.9$ cũng chính là điểm trung bình có trọng số.

Dạng cơ bản – Chiếu lên trục tọa độ

Cho:

$x_{1} = (10)$
$x_{2} = (01)$
$a = (a_{1}, a_{2})$ Tích vô hướng: $p_{1} p_{2} = a^{T} \cdot x_{1} = (a_{1}, a_{2}) \cdot (10) = a_{1} = a^{T} \cdot x_{2} = (a_{1}, a_{2}) \cdot (01) = a_{2}$ Khi chiếu lên trục cơ sở chuẩn như $(1, 0), (0, 1)$ , tích vô hướng chính là tọa độ.

Dạng tổng quát – Chiếu lên vector bất kỳ

Cho hai vector bất kỳ:

$v_{1} = (v_{1, 1} v_{1, 2})$
$v_{2} = (v_{2, 1} v_{2, 2})$ Với vector $a = (a_{1}, a_{2})$ , ta tính: $q_{1} q_{2} = a^{T} \cdot v_{1} = (a_{1}, a_{2}) \cdot (v_{1, 1} v_{1, 2}) = a^{T} \cdot v_{2} = (a_{1}, a_{2}) \cdot (v_{2, 1} v_{2, 2})$ Nếu $v_{1}, v_{2}$ đã được chuẩn hóa, $q_{1}, q_{2}$ chính là độ dài hình chiếu của $a$ lên chúng.

Ý nghĩa hình học của dot product

Với hai vector $a, b$ , công thức: $a \cdot b = ∥ a ∥ \cdot ∥ b ∥ \cdot cos (θ)$

Nếu $θ = 0°$ → dot product lớn nhất
Nếu $θ = 90°$ → dot product = 0 (vuông góc)
Nếu $θ > 90°$ → dot product âm Tích vô hướng giúp kiểm tra hướng (cùng chiều hay ngược chiều) và đo khoảng cách góc (nền tảng của cosine similarity).

Tính chất hình học

Nhân vô hướng và nhân vô hướng với vô hướng
Cho: $u = (32) \Rightarrow v = 3 \cdot u = (96) \Rightarrow m = u + (30) = (65)$ image 7 12.png Màu đỏ: Phép nhân vô hướng giữ nguyên hướng, chỉ làm thay đổi độ dài. Màu tím: Phép cộng làm thay đổi góc.

Ví dụ

Trong ví dụ này, ta sẽ dùng cả đại số tuyến tính và hình học để tính tích vô hướng giữa hai vector: $x = [05], y = [33]$ Định nghĩa toán học:

Algebra (đại số): $x \cdot y = \sum_{i = 1}^{n} x_{i} y_{i} = 0 \cdot 3 + 5 \cdot 3 = 15$
Geometry (hình học): $x \cdot y = ∥ x ∥ \cdot ∥ y ∥ \cdot cos (α)$ Trong đó, $α = 4 5^{\circ}$ , nên: $cos (α) = cos (\frac{π}{4}) = \frac{2}{2}$ Tính độ dài: $∥ x ∥ = 0^{2} + 5^{2} = 5, ∥ y ∥ = 3^{2} + 3^{2} = 18 = 32$ Kết quả: $x \cdot y = 5 \cdot 32 \cdot \frac{2}{2} = 5 \cdot 3 = 15$

Cài đặt bằng Python: Phép tính theo đại số

import numpy as np
x = np.array([0, 5])
y = np.array([3, 3])
dproduct = np.dot(x, y)
print(dproduct)  # Kết quả: 15

Phép tính theo hình học

x_length = np.linalg.norm(x)
y_length = np.linalg.norm(y)
cos_xy = np.cos(np.pi / 4)  # góc 45 độ
dproduct = x_length * y_length * cos_xy
print(dproduct)  # Kết quả: ~15.0

III.2. Cosine Similarity

Cosine similarity (cs) là độ đo phổ biến để so sánh mức độ tương đồng giữa hai vector, đặc biệt trong xử lý ngôn ngữ, truy xuất thông tin, và học máy.

Định nghĩa

Cho hai vector $x, y \in R^{n}$ : $cs (x, y) = \frac{x \cdot y}{∥ x ∥ \cdot ∥ y ∥} = \frac{\sum _{i = 1}^{n} x _{i} y _{i}}{\sum _{i = 1}^{n} x _{i}^{2} \cdot \sum _{i = 1}^{n} y _{i}^{2}}$

Tính chất

Property 1 – Bất biến theo scale: $cs (x, y) = cs (a x, b y) với a, b > 0$ Chứng minh: $cs (a x, b y) = \frac{ab \sum x _{i} y _{i}}{a ^{2} \sum x _{i}^{2} \cdot b ^{2} \sum y _{i}^{2}} = \frac{\sum x _{i} y _{i}}{\sum x _{i}^{2} \cdot \sum y _{i}^{2}} = cs (x, y)$ Khi hai vector được nhân với hệ số dương, hướng không đổi, nên cosine không đổi.

Property 2 – Không bất biến theo dịch chuyển: $cs (x, y) \neq = cs (x + c, y + d)$ Thêm hằng số vào các phần tử làm thay đổi góc, vì thay đổi hướng tương đối.

Ví dụ: Cho: $x = 4212, y = 1220$ Tính cs(x, y): $x \cdot y = 4 \cdot 1 + 2 \cdot 2 + 1 \cdot 2 + 2 \cdot 0 = 10$ $∥ x ∥ = 4^{2} + 2^{2} + 1^{2} + 2^{2} = 25, ∥ y ∥ = 1^{2} + 2^{2} + 2^{2} + 0^{2} = 9$ $cs (x, y) = \frac{10}{25 \cdot 9} = \frac{10}{15} = 0.67$ Kiểm tra tính chất 1: nhân hệ số $u = 2 x = 8424, v = 3 y = 3660$ Tính: $u \cdot v = 8 \cdot 3 + 4 \cdot 6 + 2 \cdot 6 + 4 \cdot 0 = 60$ $∥ u ∥ = 8^{2} + 4^{2} + 2^{2} + 4^{2} = 100, ∥ v ∥ = 3^{2} + 6^{2} + 6^{2} + 0^{2} = 81$ $cs (u, v) = \frac{60}{100 \cdot 81} = \frac{60}{90} = 0.67 = cs (x, y)$

An Hoai Thai's Notes

Trong bài này

M01W1.6_Linear Algebra and Applications

Tham khảo

I. Vector and Matrix

System of Linear Equations

Các cách giải

I.1. Introduction

Vector

Matrix

I.2. Vector Operations

Vector Addition – Cộng hai vector

I.3. Matrix Operations

Matrix-matrix multiplication

Transpose

Other Hadamard operations

argmin and argmax

III. Cosine Similarity

III.1. Dot Product

Dạng cơ bản – Chiếu lên trục tọa độ

Dạng tổng quát – Chiếu lên vector bất kỳ

Ý nghĩa hình học của dot product

Tính chất hình học

Ví dụ

III.2. Cosine Similarity

Định nghĩa

Tính chất

Property 2 – Không bất biến theo dịch chuyển: $cs (x, y) \neq = cs (x + c, y + d)$ Thêm hằng số vào các phần tử làm thay đổi góc, vì thay đổi hướng tương đối.

Biểu Đồ

Bảng Nội Dung

Liên Kết Ngược

An Hoai Thai's Notes

Trong bài này

M01W1.6_Linear Algebra and Applications

Tham khảo

I. Vector and Matrix

System of Linear Equations

Các cách giải

I.1. Introduction

Vector

Matrix

I.2. Vector Operations

Vector Addition – Cộng hai vector

I.3. Matrix Operations

Matrix-matrix multiplication

Transpose

Other Hadamard operations

argmin and argmax

III. Cosine Similarity

III.1. Dot Product

Dạng cơ bản – Chiếu lên trục tọa độ

Dạng tổng quát – Chiếu lên vector bất kỳ

Ý nghĩa hình học của dot product

Tính chất hình học

Ví dụ

III.2. Cosine Similarity

Định nghĩa

Tính chất

Property 2 – Không bất biến theo dịch chuyển: cs(x,y​)=cs(x+c,y​+d) Thêm hằng số vào các phần tử làm thay đổi góc, vì thay đổi hướng tương đối.

Biểu Đồ

Bảng Nội Dung

Liên Kết Ngược

Property 2 – Không bất biến theo dịch chuyển: $cs (x, y) \neq = cs (x + c, y + d)$ Thêm hằng số vào các phần tử làm thay đổi góc, vì thay đổi hướng tương đối.