Table of Content
I. Dạng biểu đồ thống kê (statistical graph):
- Dot plot
- Line graph
- Radar chart
- Area graph
- Stacked area graph:
- Stream graph:
- Bar chart
- Radial bar chart
- Radial column chart
- Spiral plot (time series spiral)
- Group bar plot
- Stack bar plot
- Histogram
- Heatmap
- Word cloud
- Quantile dot plot
- Stack histogram
- Span chart
- Error bar:
- Graded error bar
- Candlestick chart
- Density plot
- Stacked density plot
- Ridgeline plot
- Violin plot
- Strip chart
- Sina plot
- Pie chart
- Donut chart
- Nested pies
- Marimekko chart
- Parallel sets plot
- Boxplot
- Scatterplot
- Quantile-quantile plots (q-q plots)
- Confidence band
- Parallel coordinates plot
- Slopegraph
- Connected scatter plot
- Frequency framing
Important
Tham khảo
Dặn dò kiểm tra Data visualization:
- Lấy một tập dữ liệu (kaggle), tự đào, tự chế dữ liệu (điểm sẽ cao hơn).
- Vẽ biểu đồ phân tích, càng nhiều insight điểm càng cao.
Lập trình phân tích:
- Cài đặt thuật toán A star (tự cài đặt theo cấu trúc dữ liệu của thầy đề xuất)
Machine learning:
- Trình bày lại một thuật toán ML:
- Trình bày lý thuyết
- Ví dụ cụ thể từng bước.
- Code: thay đổi các tham số và giải thích kết quả với các tham số khác nhau. Ở đây thay vì trình bày theo cách tiếp cận theo chức năng của biểu đồ thì thầy trình bày theo loại như sau: Vấn đề ở cách tiếp cận chức năng là:
-
Một biểu đồ có thể có nhiều chức năng (và tùy loại chức năng quan trọng ít hay nhiều)
→ Từ đây dẫn đến một vấn đề là chúng ta trong trường hợp có thể dùng lại biểu đồ rất nhiều lần.
Đề xuất phân nhóm theo thầy:
I. Dạng biểu đồ thống kê (statistical graph):
Dot plot

Line graph
Radar chart
Area graph
Stacked area graph:
Trực quan được tổng số. (có cả chênh lệch giá trị

Stream graph:
Nhấn mạnh chênh lệch

Bar chart
Radial bar chart

Radial column chart
(là đổi trục x và y từ bar chart)

Spiral plot (time series spiral)
→ Dùng khi biến độc lập có nhiều giá trị và biến thời gian có tính chu kỳ.

Group bar plot
So sánh giữa từng nhóm con của nhóm.
Stack bar plot
So sánh giá trị tổng thể của nhóm
Histogram
- thể hiện tần số, không được có khoảng trắng giữa các thanh để thể hiện được Cumulative Distribution Function (CDF)
Heatmap
Word cloud
Quantile dot plot
- Dùng cho nhị phân
Stack histogram
-
Khác so với Stack bar vì để tính diện tích CDF
Span chart
-
Thể hiện min/max của từng đối tượng

Error bar:
-
Biểu diễn độ nhiễu


Graded error bar
Candlestick chart
Density plot
Stacked density plot
Vấn đề của biểu đồ là?
Ridgeline plot
Biểu diễn được phân phối thay đổi như nào theo time series.
Ở đây ta thấy được tháng 1 và 12 bị biến động mạnh (dải rộng hơn, nhiều đỉnh)
Violin plot

- Ưu điểm: Giúp chúng ta thấy rõ phân phối được biểu diễn hơn density plot.
- Nhược điểm: Không thể hiển thị tốt khi dữ liệu thưa
Strip chart

- Ưu điểm: khắc phục được vấn đề của violin khi dữ liệu thưa.
Sina plot
→ Kết hợp của cả hai biểu đồ violin và strip chart để tận dụng được ưu điểm của cả hai
Pie chart

- Ưu điểm: Khi bar chart có quá nhiều nhóm biểu diễn thì pie chart cho thấy được % tỷ lệ của nhiều nhóm hơn.
- Nhược điểm: |Biểu đồ hình tròn|Thanh xếp chồng|Các thanh song song| |---|---|---| |Hiển thị rõ ràng dữ liệu dưới dạng tỷ lệ của một tổng thể|✔|✔| |Cho phép so sánh trực quan dễ dàng các tỷ lệ tương đối|✖|✖| |Nhấn mạnh trực quan các phân số đơn giản, chẳng hạn như 1/2, 1/3, 1/4|✔|✖| |Có vẻ hấp dẫn về mặt thị giác ngay cả đối với các tập dữ liệu rất nhỏ|✔|✖| |Hoạt động tốt khi toàn bộ bị vỡ thành nhiều mảnh|✖|✖| |Hoạt động tốt để trực quan hóa nhiều bộ tỷ lệ hoặc chuỗi thời gian của tỷ lệ|✖|✔| ⇒ Chú ý: Không nên dùng biểu đồ pie
Donut chart

- Ưu điểm: Thêm không gian để ghi chú.
- Nhược điểm: Khó so sánh các thành phần hơn.
Nested pies
Xử lý khi có nhiều biến độc lập và có thể gom lại
Marimekko chart
Parallel sets plot
Dùng khi ta có nhiều biến độc lập
- Ưu điểm:
- Thể hiện được mối liên kết giữa hai biến phân loại bằng dải màu.
- Xác định được thứ tự quan trọng của các biến phân loại.
Boxplot
Tại sao fence lại là → Quy tắc thực nghiệm xấp xỉ 1.5 IQR
Scatterplot
Dotplot: Biểu diễn quan hệ phụ thuộc hàm (X xác định 1 Y)
Scatterplot: Biểu diễn quan hệ phụ thuộc đa trị (X xác định nhiều Y)
Quantile-quantile plots (q-q plots)
- So sánh phân phối dữ liệu thực tế với phân phối dự đoán → kiểm định phân phối

- Ở đây đường kẻ thể hiện xu thế gọi là đường tham chiếu (không phải đường hồi quy).
- Điểm nằm trên đường tham chiếu (phân giác) thì giá trị thực tế = giá trị dự đoán.
- Thuật toán càng tốt khi các điểm bám sát trên đường tham chiếu này.
Confidence band
Ngoài đường hồi quy thì dải màu còn biểu diễn độ tin cậy.
Parallel coordinates plot

- Ứng dụng
- So sánh sản phẩm có nhiều thuộc tính (ví dụ: thông số máy tính, xe hơi).
- Tìm kiếm mối tương quan hoặc mẫu hình ẩn trong tập dữ liệu nhiều biến.
- Hạn chế
- Khi dữ liệu quá lớn, biểu đồ có thể trở nên rối và khó đọc.
- Dễ gây overplotting nếu không có xử lý bổ sung.
Slopegraph
Giống Parallel coordinates plot nhưng bỏ trục ra cho đỡ rối.
Ứng dụng:
- Chỉ dùng cho dữ liệu phụ thuộc.
Hai tập dữ liệu phụ thuộc nhau nếu cùng thể hiện cho một biến ngẫu nhiên ở hai thời điểm khác nhau.
Ví dụ 1: Công ty dược phẩm thử nghiệm tính hiệu quả của sản phẩm A:
- Yêu cầu 100 người tình nguyện viên đo 1 chỉ số A:
- 50 người uống thuốc A thật
- 50 người uống thuốc A giả.
- Sau đó 1 tháng sau đo lại chỉ số A xem có sự thay đổi không.
→ Vậy tập A ban đầu và tập A sau 1 tháng là hai tập dữ liệu phụ thuộc.
Ví dụ 2:
Connected scatter plot

- Đường biểu diễn là thời gian. → Biểu diễn tương quan giữa 2 biến: tuần hoàn, xoáy ốc,…
Frequency framing
…
Dạng sơ đồ (diagram)
Tree diagram
Ứng dụng:
- Thuật toán về cây
- Quản lý hệ thống
Network diagram
