2. Data– Notes by AHT

2. Kiểu tập dữ liệu và đối tượng dữ liệu

2.1. Types of data sets

Tài liệu phân loại các dạng tập dữ liệu thường gặp:

Record (bảng ghi): giống bảng trong CSDL quan hệ: mỗi dòng là một đối tượng, mỗi cột là thuộc tính. Bao gồm dạng “data matrix”, “crosstab”, dữ liệu văn bản được mã hoá thành vector tần suất từ (term-frequency), và dữ liệu giao dịch (transaction data, mỗi giao dịch là một tập item).
Graph and network: dữ liệu dạng nút – cạnh, ví dụ mạng xã hội, web, cấu trúc phân tử.
Ordered: có thứ tự theo thời gian hay chuỗi: video (chuỗi ảnh), time-series, transaction sequences, chuỗi gene.
Spatial / image / multimedia: bản đồ, ảnh, video, dữ liệu không gian. 02. Data

Hình minh hoạ ở trang 3 cho thấy: cùng một “thế giới dữ liệu”, nhưng cách tổ chức rất khác nhau; chọn thuật toán luôn phải xét đến cấu trúc này.

2.2. Data objects

Data object là một “thực thể” trong dữ liệu: khách hàng, sản phẩm, bệnh nhân, sinh viên, giao dịch,…
Trong CSDL: mỗi row là một data object; mỗi column là một attribute mô tả đặc trưng của object đó.
Object còn được gọi là sample, instance, example, tuple,… 02. Data

Hiểu rõ object giúp mình hình dung: mỗi dòng dữ liệu tương ứng một “điểm” trong không gian nhiều chiều.

3. Kiểu thuộc tính (Attribute types)

Thuộc tính là “feature” của object. Chương này chia thành:

3.1. Nominal, binary, ordinal

Nominal: chỉ là tên / nhãn, không có thứ tự: màu tóc, nghề nghiệp, số CMND, zip code. Không thể cộng trừ, chỉ có “bằng” hoặc “khác”.
Binary: nominal nhưng chỉ có 2 trạng thái, thường mã hoá 0–1.
- Symmetric binary: hai trạng thái quan trọng như nhau (ví dụ giới tính).
- Asymmetric binary: một trạng thái quan trọng hơn (test bệnh: dương tính quan trọng hơn âm tính; thường gán 1 cho trạng thái “quan trọng”).
Ordinal: có thứ tự nhưng không biết khoảng cách giữa các mức: size nhỏ–vừa–lớn, xếp hạng quân đội, điểm đánh giá “bad–ok–good–excellent”. 02. Data

3.2. Numeric: interval, ratio, discrete, continuous

Numeric là thuộc tính định lượng, có thể là integer hoặc real.
Interval-scaled: có thứ tự, khoảng cách có ý nghĩa, nhưng không có mốc 0 tuyệt đối. Ví dụ nhiệt độ °C, °F, ngày tháng. Không thể nói “20°C gấp đôi 10°C”.
Ratio-scaled: có mốc 0 thực sự, nên có ý nghĩa về tỷ lệ. Ví dụ nhiệt độ Kelvin, chiều dài, số lượng, tiền bạc; có thể nói “10 K gấp đôi 5 K”. 02. Data
Discrete: nhận giá trị rời rạc, đếm được (ví dụ số con, mã bưu điện, số từ trong văn bản). Binary là trường hợp riêng.
Continuous: nhận vô hạn giá trị thực, ví dụ chiều cao, cân nặng; trong thực tế đo được đến một số chữ số hữu hạn. 02. Data

Việc phân loại này rất quan trọng vì cách chuẩn hóa, tính khoảng cách, vẽ đồ thị sẽ khác nhau theo loại thuộc tính.

4. Thống kê mô tả cơ bản

Mục tiêu: nắm được “hình dạng” của dữ liệu theo hai khía cạnh: khuynh hướng trung tâm và độ phân tán. 02. Data

4.1. Central tendency: mean, median, mode

Mean (trung bình):
- Sample mean: $\overset{x}{ˉ} = \frac{1}{n} i = 1 \sum n x_{i}$ .
- Population mean: $μ = \frac{1}{N} i = 1 \sum N x_{i}$ .
Weighted mean: $\overset{x}{ˉ}_{w} = \frac{\sum _{i = 1}^{n} w _{i} x _{i}}{\sum _{i = 1}^{n} w _{i}}$ , dùng khi mỗi quan sát có “trọng số”.
Trimmed mean: bỏ đi các giá trị cực trị ở hai phía rồi mới tính mean, giúp bớt nhạy cảm với outlier.
Median: giá trị ở giữa khi sắp xếp tăng dần; nếu số phần tử chẵn thì lấy trung bình của hai giá trị giữa.
Mode: giá trị xuất hiện nhiều nhất; phân phối có thể 1 mode, 2 mode,… 02. Data

Hình ở trang 13 minh hoạ: với dữ liệu đối xứng, mean ≈ median ≈ mode; với dữ liệu lệch phải hoặc lệch trái, ba vị trí này bị “kéo” về phía đuôi phân phối.

4.2. Dispersion: quartiles, IQR, variance, std

Quartiles:
- $Q_{1}$ : 25 th percentile,
- $Q_{3}$ : 75 th percentile.
Inter-quartile range: $I QR = Q_{3} - Q_{1}$ .
Five-number summary: ${min, Q_{1}, median, Q_{3}, max}$ .
Boxplot: vẽ hộp từ $Q_{1}$ đến $Q_{3}$ , đường giữa là median, “whiskers” kéo đến min, max; các điểm cực kỳ xa được xem là outlier (thường ngoài khoảng $[Q_{1} - 1.5 \cdot I QR, Q_{3} + 1.5 \cdot I QR]$ ). 02. Data
Variance (phương sai) và standard deviation (độ lệch chuẩn):
- Sample: $s^{2} = \frac{1}{n - 1} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2}$ , $s = s^{2}$ .
- Population: $σ^{2} = \frac{1}{N} i = 1 \sum N (x_{i} - μ)^{2}$ , $σ = σ^{2}$ .

Độ lệch chuẩn càng lớn, dữ liệu càng “loãng” quanh trung tâm.

4.3. Normal distribution

Hình “normal curve” cho biết:

Khoảng $[μ - σ, μ + σ]$ chứa khoảng 68% dữ liệu.
$[μ - 2 σ, μ + 2 σ]$ chứa khoảng 95%.
$[μ - 3 σ, μ + 3 σ]$ chứa khoảng 99.7%. 02. Data

Những con số này thường dùng để phát hiện outlier và chuẩn hoá.

5. Trực quan hóa dữ liệu (Data visualization)

5.1. Đồ thị thống kê cơ bản

Tài liệu điểm lại các đồ thị một biến và hai biến:

Boxplot: hiển thị five-number summary, dễ thấy median, IQR và outlier.
Histogram: chia trục giá trị thành các khoảng, vẽ cột theo tần suất; dạng cột liền nhau, diện tích cột thể hiện tần suất. Histogram cho thấy hình dạng phân phối, đôi khi cho thông tin chi tiết hơn boxplot.
Quantile plot: với mỗi giá trị $x_{i}$ , vẽ cặp $(f_{i}, x_{i})$ , trong đó $f_{i}$ là tỉ lệ phần trăm dữ liệu ≤ $x_{i}$ .
Quantile–quantile (Q–Q) plot: so sánh hai phân phối 1 chiều bằng cách vẽ quantiles của phân phối A so với quantiles của phân phối B; nếu hai phân phối giống nhau, các điểm nằm gần đường chéo.
Scatter plot: vẽ từng cặp giá trị $(x, y)$ làm điểm trên mặt phẳng, giúp nhìn tương quan, cụm, outlier. 02. Data

Các hình từ trang 19–25 minh hoạ histogram, q–q plot, scatter plot với dữ liệu bán hàng.

5.2. Phân loại kỹ thuật visualization

Phần sau của chương đi sâu hơn, chia visualization thành các nhóm:

Pixel-oriented: mỗi thuộc tính là một cửa sổ, mỗi record là một pixel; màu pixel biểu thị giá trị. Hình trang 28–29 minh hoạ cách sắp xếp pixel trong các “segment” hình tròn để tiết kiệm diện tích.
Geometric projection: biểu diễn dữ liệu bằng biến đổi hình học, gồm scatterplot (ma trận scatterplot), “landscapes” (biểu diễn dữ liệu như bề mặt địa hình), projection pursuit, prosection view, hyperslice, parallel coordinates. 02. Data
Parallel coordinates: mỗi thuộc tính là một trục song song, mỗi điểm dữ liệu là một polyline cắt ngang các trục tại vị trí giá trị; rất hữu ích cho dữ liệu nhiều chiều.

Nhờ visualization, mình có trực giác về cụm, xu hướng, vùng bất thường để sau đó chọn thuật toán phân cụm, phân loại, phát hiện bất thường,…

6. Đo tương đồng và bất tương đồng (similarity & dissimilarity)

6.1. Khái niệm chung

Similarity: số đo cho biết hai object giống nhau đến mức nào, thường trong khoảng $[0, 1]$ , càng cao càng giống.
Dissimilarity (distance): số đo khác biệt, càng nhỏ càng giống; giá trị tối thiểu thường là 0.
Tài liệu gọi chung là proximity (độ gần gũi). 02. Data

6.2. Data matrix & dissimilarity matrix

Data matrix: ma trận $n \times p$ , với $n$ object, $p$ thuộc tính; mỗi hàng là vector thuộc tính của một object.
Dissimilarity matrix: ma trận tam giác (hoặc vuông đối xứng) lưu khoảng cách giữa từng cặp object; phần tử $d (i, j)$ là khoảng cách giữa object i và j. 02. Data

Hình ví dụ trang 43–46 cho thấy cùng một data matrix nhưng có thể sinh ra nhiều dissimilarity matrix khác nhau tuỳ theo loại khoảng cách (L 1, L 2, L∞).

6.3. Numeric distance: Minkowski, L 1, L 2, L∞

Với hai vector $i = (x_{i 1}, \dots, x_{i p})$ và $j = (x_{j 1}, \dots, x_{j p})$ :

$d_{h} (i, j) = (\sum_{f = 1}^{p} ∣ x_{i f} - x_{j f} ∣^{h})^{1/ h}$

h = 1: Manhattan distance (L 1), tính tổng chênh lệch tuyệt đối.
h = 2: Euclidean distance (L 2), khoảng cách “thẳng” quen thuộc.
h → ∞: L∞ (supremum), là max chênh lệch trên từng thuộc tính. 02. Data

Khoảng cách Minkowski thỏa ba tính chất: xác định dương, đối xứng và bất đẳng thức tam giác, nên là một metric.

6.4. Nominal và binary attributes

Nominal: có thể dùng simple matching:

$d (i, j) = \frac{p - m}{p}$

với $m$ là số thuộc tính khớp, $p$ là số thuộc tính.
Binary: dùng bảng 2×2 (q, r, s, t) để tính:
- Symmetric binary: coi 0 và 1 ngang nhau; khoảng cách dựa trên (r + s) / (q + r + s + t).
- Asymmetric binary: quan tâm chủ yếu đến giá trị 1, dùng Jaccard similarity:
  
  $s_{J} (i, j) = \frac{q}{q + r + s}$
  
  rồi distance có thể là $1 - s_{J} (i, j)$ . 02. Data

Ví dụ ở trang 41 minh hoạ khoảng cách giữa ba bệnh nhân với các test y tế khác nhau.

6.5. Ordinal và mixed attributes

Với ordinal, ta gán rank $r_{i f}$ cho giá trị, rồi chuẩn hoá về $[0, 1]$ :

$z_{i f} = \frac{r _{i f} - 1}{M _{f} - 1}$

Sau đó xử lý như numeric interval. 02. Data
Với mixed attributes (nominal, binary, numeric, ordinal cùng tồn tại), ta tính một khoảng cách tổng hợp có trọng số:

$d (i, j) = \frac{\sum _{f} δ _{ij}^{(f)} d _{ij}^{(f)}}{\sum _{f} δ _{ij}^{(f)}}$

trong đó $δ_{ij}^{(f)}$ là chỉ báo (bằng 0 nếu thuộc tính thiếu, 1 nếu có), và $d_{ij}^{(f)}$ là khoảng cách trên riêng thuộc tính f, được định nghĩa khác nhau cho nominal/numeric/ordinal. 02. Data

6.6. Cosine similarity cho vector nhiều chiều

Đặc biệt với dữ liệu văn bản, mỗi document được biểu diễn như vector tần suất từ. Khi đó:

$cos (d_{1}, d_{2}) = \frac{d _{1} \cdot d _{2}}{∥ d _{1} ∥ ∥ d _{2} ∥}$

Tử số là dot product.
Mẫu số là tích độ dài hai vector.
Giá trị gần 1 nghĩa là hai văn bản có hướng gần nhau, dù độ dài (tổng số từ) có thể rất khác. 02. Data

Ví dụ trong chương cho ra cosine ~0.94 giữa hai document, thể hiện mức độ tương đồng rất cao.

An Hoai Thai's Notes

Trong bài này

2. Data