Box Plot là gì? Cách đọc và ứng dụng biểu đồ hộp trong phân tích dữ liệu
Box plot là gì?
Box plot (hay còn gọi là biểu đồ hộp và râu) là một loại biểu đồ thống kê giúp trực quan hóa phân phối dữ liệu. Thông qua hộp và các đường râu, box plot cho phép chúng ta quan sát nhanh sự phân bố, độ lệch, sự đối xứng và các giá trị ngoại lai (outlier) trong tập dữ liệu.
Cấu trúc cơ bản của một box plot gồm:
-
Hộp (box): biểu thị khoảng 50% dữ liệu trung tâm.
-
Đường ở giữa hộp: giá trị trung vị (median).
-
Râu (whiskers): kéo dài từ hộp đến điểm dữ liệu xa nhất nhưng vẫn nằm trong ngưỡng cho phép.
-
Ngoại lai (outlier): các điểm dữ liệu vượt quá phạm vi râu, thường được đánh dấu bằng chấm.
Nhờ thiết kế gọn gàng, box plot đặc biệt hữu ích khi cần so sánh phân phối dữ liệu của nhiều nhóm khác nhau.
Khi nào nên sử dụng box plot?
Box plot được dùng rộng rãi trong phân tích dữ liệu vì tính trực quan và cô đọng. Một số trường hợp nên dùng box plot:
-
So sánh phân phối dữ liệu giữa nhiều nhóm (ví dụ: doanh số theo tháng, điểm thi giữa các lớp).
-
Xác định nhanh trung vị, mức độ phân tán và giá trị ngoại lai trong dữ liệu.
-
Trình bày kết quả phân tích ở dạng dễ hiểu, dễ so sánh.
👉 Tuy nhiên, nếu chỉ có một nhóm dữ liệu và cần quan sát chi tiết hình dạng phân phối (ví dụ phân phối chuẩn, lệch trái/phải, nhiều đỉnh), thì histogram hoặc violin plot sẽ phù hợp hơn.
Cách đọc box plot trong phân tích dữ liệu
Box plot được xây dựng dựa trên các tứ phân vị (quartiles):
-
Q1: phân vị thứ nhất, lớn hơn 25% dữ liệu.
-
Q2 (median): phân vị thứ hai, trung vị, chia đôi dữ liệu.
-
Q3: phân vị thứ ba, lớn hơn 75% dữ liệu.
Khoảng giữa Q1 và Q3 gọi là IQR (interquartile range), thể hiện độ phân tán của dữ liệu.
-
Râu của box plot thường kéo dài đến điểm xa nhất nhưng nằm trong 1.5 × IQR.
-
Điểm nằm ngoài phạm vi này được xem là ngoại lai.
📌 Nếu dữ liệu đối xứng, median nằm giữa hộp và râu cân đối hai bên.
📌 Nếu dữ liệu lệch (skewed), median lệch khỏi trung tâm hộp, râu dài ngắn không đều, ngoại lai tập trung nhiều về một phía.
Các biến thể của box plot trong trực quan hóa dữ liệu
Trong thực tế, box plot có nhiều biến thể để phù hợp với từng loại dữ liệu:
1. Box plot dọc và ngang
-
Dọc: phù hợp khi dữ liệu gắn với thời gian.
-
Ngang: thuận tiện khi có nhiều nhóm hoặc tên nhóm dài.
2. Box plot có khía (Notched box plot)
Notch thể hiện khoảng tin cậy của median. Nếu khía của hai nhóm không chồng lấn, median khác biệt có ý nghĩa thống kê.
3. Độ rộng hộp thay đổi
Độ rộng hộp phản ánh số lượng điểm dữ liệu trong nhóm, giúp người xem đánh giá nhanh độ tin cậy.
4. Letter-value plot
Một dạng mở rộng của box plot, dùng nhiều lớp hộp để thể hiện thêm các phân vị sâu hơn. Hữu ích khi dữ liệu rất lớn và có nhiều ngoại lai.
So sánh box plot với các biểu đồ dữ liệu khác
-
Histogram: tốt khi muốn xem chi tiết phân phối của một nhóm dữ liệu.
-
Violin plot: kết hợp box plot và đường mật độ, cho cái nhìn rõ hơn về hình dạng phân phối.
Kết luận
Box plot là công cụ mạnh mẽ và gọn gàng trong trực quan hóa dữ liệu, giúp:
-
Tóm tắt nhanh đặc điểm chính của dữ liệu (median, phân tán, ngoại lai).
-
So sánh nhiều nhóm dữ liệu cùng lúc một cách trực quan.
Tuy còn hạn chế trong việc thể hiện chi tiết hình dạng phân phối, nhưng box plot vẫn là một trong những biểu đồ quan trọng nhất trong phân tích dữ liệu, đặc biệt khi làm việc với big data hoặc khi cần truyền tải thông tin súc tích, dễ hiểu.
Bài viết được biên dịch từ Atlassian.
Tìm hiểu thêm tại:
______________
MCNA TECHNOLOGY – HỌC ĐỂ LÀM “THẬT”
Contact us via:
► Website: https://mcna.vn/
► Email: info@mcna.vn
► Hotline: 091 644 23 68 (Mr. Sơn)