Logistic Regression: hiểu đúng xác suất trong Machine Learning

Logistic Regression là một trong những mô hình được dùng nhiều nhất trong Machine Learning thực tế. Tuy nhiên, đây cũng là mô hình thường xuyên bị hiểu sai, đặc biệt ở cách diễn giải đầu ra là “xác suất”. Việc hiểu sai tầng này dẫn đến rất nhiều quyết định vận hành không tối ưu trong production.

Chào mừng bạn đến với Ngày 9 của chuỗi series “30 ngày – Tư duy cốt lõi Machine Learning”. Sau khi đã nhìn Linear Models dưới góc độ production (Ngày 8), hôm nay chúng ta đi sâu hơn vào một biến thể quan trọng: Logistic Regression.

Nội dung

Logistic Regression thực chất đang mô hình hóa điều gì?

Logistic Regression không học trực tiếp xác suất theo nghĩa thông thường. Về mặt toán học, mô hình học một hàm tuyến tính trên không gian feature:

z = w^Tx + b

Sau đó, giá trị này được đưa qua hàm sigmoid:

P(y = 1 | x) = 1 / (1 + exp(-z))

Điểm quan trọng nằm ở chỗ: Logistic Regression học log-odds, không phải xác suất trực tiếp.

Odds và Log-odds: tầng thường bị bỏ qua

Odds được định nghĩa là:

odds = P(y=1|x) / (1 – P(y=1|x))

Logistic Regression thực chất đang học:

log(odds) = w^Tx + b

Điều này có nghĩa:

- Mỗi feature tác động tuyến tính lên log-odds
- Không tác động tuyến tính trực tiếp lên xác suất

Vì vậy, việc diễn giải hệ số của Logistic Regression chỉ có ý nghĩa khi đặt trong không gian log-odds.

Vì sao output của Logistic Regression không luôn là xác suất “đáng tin”?

Một hiểu lầm phổ biến là:

“Output của Logistic Regression là xác suất đúng.”

Trong thực tế, điều này chỉ đúng khi:

- Dữ liệu train đại diện tốt cho dữ liệu vận hành
- Class balance tương đối ổn định
- Model được calibration đúng cách

Nếu các điều kiện này không thỏa mãn, output chỉ nên được xem là score, không phải xác suất tuyệt đối.

Calibration và Discrimination: hai khái niệm khác nhau

Logistic Regression thường có khả năng discrimination tốt:

- Xếp hạng được ai có rủi ro cao hơn

Nhưng điều đó không đảm bảo calibration tốt:

- Xác suất dự đoán phản ánh đúng tần suất xảy ra

Một model có AUC cao vẫn có thể:

- Dự đoán xác suất lệch đáng kể
- Dẫn đến quyết định không phù hợp với chi phí thực

Logistic Regression trong hệ thống ra quyết định

Trong production, Logistic Regression thường được dùng như:

- Bộ sinh score
- Thành phần trong decision layer

Mô hình không nên tự động sinh quyết định cuối cùng. Quyết định cần dựa trên:

- Score hoặc xác suất dự đoán
- Chi phí sai lệch
- Ràng buộc vận hành

Một cách triển khai phổ biến:score = model.predict_proba(x) decision = policy(score, cost, constraint)

Khi nào Logistic Regression là lựa chọn tốt?

Logistic Regression hoạt động rất hiệu quả khi:

- Feature đã được thiết kế tốt
- Yêu cầu interpretability cao
- Cần hệ thống ổn định và dễ kiểm soát

Đây là lý do mô hình này vẫn được dùng rộng rãi trong:

- Credit scoring
- Risk modeling
- Fraud detection

Kết luận

Logistic Regression không đơn giản như nhiều người nghĩ, và cũng không “thần kỳ” như cách nó thường bị diễn giải.

Giá trị thật sự của Logistic Regression nằm ở:

- Khả năng xếp hạng
- Khả năng giải thích
- Sự ổn định trong hệ thống thực

Một ML practitioner giỏi không hỏi:

“Xác suất này đúng bao nhiêu phần trăm?”

Mà hỏi:

“Xác suất này nên được dùng như thế nào trong quyết định?”

👉 Author: Duong Duy

👉 Để hiểu và sử dụng Linear Models đúng cách trong hệ thống Machine Learning thực tế (feature engineering, regularization, evaluation, deployment), bạn có thể tham khảo lộ trình:
Khóa học Python & Machine Learning – Từ Zero đến Hero tại MCNA, tập trung vào xây dựng và vận hành mô hình ML trong production.

🎓 MCNA Technology School – Tiên phong đào tạo ứng dụng AI, Big Data, Business Intelligence, Power BI, Python, SQL, Excel, VBA, RPA cho cá nhân và doanh nghiệp tại Việt Nam.

💼 Đối tác đào tạo của hơn 300+ doanh nghiệp lớn:
Viettel Global, Masan Group, Techcombank, VPBank, Daikin, VTV, VinUni, ĐH Ngoại Thương…

🌐 Tìm hiểu thêm:
Website: https://mcna.vn
Fanpage: facebook.com/mcnatechnologyschool
Group cộng đồng: facebook.com/groups/DataAnalyticsVietnam
YouTube: youtube.com/@mcna.technology.school
LinkedIn: https://www.linkedin.com/company/mcna-vn

📞 Hotline:
Tư vấn khóa học & doanh nghiệp: 0939.866.825 (Mr. Minh Khang)

🏢 Hệ thống cơ sở:
Cơ sở 01: 30 Trung Liệt, Đống Đa, Hà Nội
Cơ sở 02: Liền kề 44B, TT2, Khu đô thị Văn Quán, Hà Đông, Hà Nội
Cơ sở 03: The BIB Space, 50B Phan Tây Hồ, Phường Cầu Kiệu, HCMC

📌 Theo dõi MCNA để không bỏ lỡ các tài liệu, sự kiện & khóa học chuyên sâu về Data & AI.

🔗 Bài viết liên quan

Logistic Regression: hiểu đúng xác suất trong Machine Learning

Logistic Regression thực chất đang mô hình hóa điều gì?

Odds và Log-odds: tầng thường bị bỏ qua

Vì sao output của Logistic Regression không luôn là xác suất “đáng tin”?

Calibration và Discrimination: hai khái niệm khác nhau

Logistic Regression trong hệ thống ra quyết định

Khi nào Logistic Regression là lựa chọn tốt?

Kết luận

Recap Buổi Học Thử Power BI Kickstart – 08/08/2025

50+ công cụ AI bạn không thể bỏ lỡ trong năm 2025

🌟 HỌC BỔNG BA NEXTGEN 2025 – CƠ HỘI KHỞI ĐẦU SỰ NGHIỆP BUSINESS ANALYST

Về MCNA

Đào tạo

Giải pháp Doanh nghiệp

Hỗ trợ & Pháp lý

Logistic Regression thực chất đang mô hình hóa điều gì?

Odds và Log-odds: tầng thường bị bỏ qua

Vì sao output của Logistic Regression không luôn là xác suất “đáng tin”?

Calibration và Discrimination: hai khái niệm khác nhau

Logistic Regression trong hệ thống ra quyết định

Khi nào Logistic Regression là lựa chọn tốt?

Kết luận

Recommend

Recap Buổi Học Thử Power BI Kickstart – 08/08/2025

50+ công cụ AI bạn không thể bỏ lỡ trong năm 2025

🌟 HỌC BỔNG BA NEXTGEN 2025 – CƠ HỘI KHỞI ĐẦU SỰ NGHIỆP BUSINESS ANALYST