Table of Content

Important

Tham khảo

Dặn dò kiểm tra Data visualization:

  • Lấy một tập dữ liệu (kaggle), tự đào, tự chế dữ liệu (điểm sẽ cao hơn).
  • Vẽ biểu đồ phân tích, càng nhiều insight điểm càng cao.

Lập trình phân tích:

  • Cài đặt thuật toán A star (tự cài đặt theo cấu trúc dữ liệu của thầy đề xuất)

Machine learning:

  • Trình bày lại một thuật toán ML:
    • Trình bày lý thuyết
    • Ví dụ cụ thể từng bước.
    • Code: thay đổi các tham số và giải thích kết quả với các tham số khác nhau. Ở đây thay vì trình bày theo cách tiếp cận theo chức năng của biểu đồ thì thầy trình bày theo loại như sau: Vấn đề ở cách tiếp cận chức năng là:
  • Một biểu đồ có thể có nhiều chức năng (và tùy loại chức năng quan trọng ít hay nhiều)

    → Từ đây dẫn đến một vấn đề là chúng ta trong trường hợp có thể dùng lại biểu đồ rất nhiều lần.

Đề xuất phân nhóm theo thầy:

I. Dạng biểu đồ thống kê (statistical graph):

Dot plot

image 71.png

Line graph

Radar chart

Area graph

Stacked area graph:

Trực quan được tổng số. (có cả chênh lệch giá trị image 4 24.png

Stream graph:

Nhấn mạnh chênh lệch image 5 22.png

Bar chart

Radial bar chart

image 6 21.png

Radial column chart

(là đổi trục x và y từ bar chart) image 7 16.png

Spiral plot (time series spiral)

→ Dùng khi biến độc lập có nhiều giá trị và biến thời gian có tính chu kỳ. image 8 16.png

Group bar plot

So sánh giữa từng nhóm con của nhóm.

Stack bar plot

So sánh giá trị tổng thể của nhóm

Histogram

  • thể hiện tần số, không được có khoảng trắng giữa các thanh để thể hiện được Cumulative Distribution Function (CDF)

Heatmap

Word cloud

Quantile dot plot

  • Dùng cho nhị phân

Stack histogram

  • Khác so với Stack bar vì để tính diện tích CDF

Span chart

  • Thể hiện min/max của từng đối tượng

    image 9 15.png

Error bar:

  • Biểu diễn độ nhiễu

    image 10 14.png

    image 11 14.png

Graded error bar

Candlestick chart

Density plot

Stacked density plot

image 1 34.png Vấn đề của biểu đồ là?

Ridgeline plot

image 2 32.png Biểu diễn được phân phối thay đổi như nào theo time series. Ở đây ta thấy được tháng 1 và 12 bị biến động mạnh (dải rộng hơn, nhiều đỉnh)

Violin plot

image 3 30.png

  • Ưu điểm: Giúp chúng ta thấy rõ phân phối được biểu diễn hơn density plot.
  • Nhược điểm: Không thể hiển thị tốt khi dữ liệu thưa

Strip chart

image 4 25.png

  • Ưu điểm: khắc phục được vấn đề của violin khi dữ liệu thưa.

Sina plot

image 5 23.png → Kết hợp của cả hai biểu đồ violin và strip chart để tận dụng được ưu điểm của cả hai

Pie chart

image 6 22.png image 7 17.png image 8 17.png

  • Ưu điểm: Khi bar chart có quá nhiều nhóm biểu diễn thì pie chart cho thấy được % tỷ lệ của nhiều nhóm hơn.
  • Nhược điểm: |Biểu đồ hình tròn|Thanh xếp chồng|Các thanh song song| |---|---|---| |Hiển thị rõ ràng dữ liệu dưới dạng tỷ lệ của một tổng thể|✔|✔| |Cho phép so sánh trực quan dễ dàng các tỷ lệ tương đối|✖|✖| |Nhấn mạnh trực quan các phân số đơn giản, chẳng hạn như 1/2, 1/3, 1/4|✔|✖| |Có vẻ hấp dẫn về mặt thị giác ngay cả đối với các tập dữ liệu rất nhỏ|✔|✖| |Hoạt động tốt khi toàn bộ bị vỡ thành nhiều mảnh|✖|✖| |Hoạt động tốt để trực quan hóa nhiều bộ tỷ lệ hoặc chuỗi thời gian của tỷ lệ|✖|✔| ⇒ Chú ý: Không nên dùng biểu đồ pie

Donut chart

image 9 16.png

  • Ưu điểm: Thêm không gian để ghi chú.
  • Nhược điểm: Khó so sánh các thành phần hơn.

Nested pies

image 10 15.png Xử lý khi có nhiều biến độc lập và có thể gom lại

Marimekko chart

Parallel sets plot

image 11 15.png Dùng khi ta có nhiều biến độc lập

  • Ưu điểm:
    • Thể hiện được mối liên kết giữa hai biến phân loại bằng dải màu.
    • Xác định được thứ tự quan trọng của các biến phân loại.

Boxplot

image 12 14.png Tại sao fence lại là → Quy tắc thực nghiệm xấp xỉ 1.5 IQR

Scatterplot

image 13 13.png Dotplot: Biểu diễn quan hệ phụ thuộc hàm (X xác định 1 Y) Scatterplot: Biểu diễn quan hệ phụ thuộc đa trị (X xác định nhiều Y)

Quantile-quantile plots (q-q plots)

  • So sánh phân phối dữ liệu thực tế với phân phối dự đoán → kiểm định phân phối image 14 13.png
  • Ở đây đường kẻ thể hiện xu thế gọi là đường tham chiếu (không phải đường hồi quy).
    • Điểm nằm trên đường tham chiếu (phân giác) thì giá trị thực tế = giá trị dự đoán.
    • Thuật toán càng tốt khi các điểm bám sát trên đường tham chiếu này.

Confidence band

image 15 13.png Ngoài đường hồi quy thì dải màu còn biểu diễn độ tin cậy.

Parallel coordinates plot

image 16 11.png

  • Ứng dụng
    • So sánh sản phẩm có nhiều thuộc tính (ví dụ: thông số máy tính, xe hơi).
    • Tìm kiếm mối tương quan hoặc mẫu hình ẩn trong tập dữ liệu nhiều biến.
  • Hạn chế
    • Khi dữ liệu quá lớn, biểu đồ có thể trở nên rối và khó đọc.
    • Dễ gây overplotting nếu không có xử lý bổ sung.

Slopegraph

Giống Parallel coordinates plot nhưng bỏ trục ra cho đỡ rối. image 17 11.png Ứng dụng:

  • Chỉ dùng cho dữ liệu phụ thuộc.

Hai tập dữ liệu phụ thuộc nhau nếu cùng thể hiện cho một biến ngẫu nhiên ở hai thời điểm khác nhau.

Ví dụ 1: Công ty dược phẩm thử nghiệm tính hiệu quả của sản phẩm A:

  • Yêu cầu 100 người tình nguyện viên đo 1 chỉ số A:
    • 50 người uống thuốc A thật
    • 50 người uống thuốc A giả.
  • Sau đó 1 tháng sau đo lại chỉ số A xem có sự thay đổi không.

→ Vậy tập A ban đầu và tập A sau 1 tháng là hai tập dữ liệu phụ thuộc.

Ví dụ 2:

Connected scatter plot

image 18 11.png

  • Đường biểu diễn là thời gian. → Biểu diễn tương quan giữa 2 biến: tuần hoàn, xoáy ốc,…

Frequency framing

Dạng sơ đồ (diagram)

Tree diagram

image 19 11.png Ứng dụng:

  • Thuật toán về cây
  • Quản lý hệ thống

Network diagram

image 20 10.png

Venn diagram

Flowchart

Mindmap

Gantt chart

Fishbone diagram

Dạng khác