Vì sao model có thể dự đoán tốt trên dữ liệu chưa từng thấy?
Generalization trong Machine Learning là khả năng của model học được các quy luật mang tính khái quát từ dữ liệu huấn luyện và áp dụng hiệu quả lên dữ liệu mới chưa từng xuất hiện, trong bối cảnh các giả định về phân phối dữ liệu luôn có nguy cơ bị phá vỡ trong thực tế.
Generalization – vấn đề trung tâm của Machine Learning

(Chú thích ảnh: Vấn đề trung tâm của Machine Learning)
Nếu Machine Learning chỉ đơn thuần là việc ghi nhớ dữ liệu huấn luyện, thì về mặt bản chất, mọi hệ thống ML sẽ thất bại ngay khi được triển khai vào môi trường production.
Tuy nhiên, thực tế cho thấy:
- Model có thể dự đoán tốt trên dữ liệu chưa từng xuất hiện trong training set
- Ngay cả khi dữ liệu test không hoàn toàn giống dữ liệu train
Điều này cho thấy model không chỉ học các điểm dữ liệu riêng lẻ, mà đã học được cấu trúc thống kê tiềm ẩn phía sau dữ liệu.
Vì sao generalization lại xảy ra?
Đây không phải hiện tượng hiển nhiên, mà là câu hỏi cốt lõi của toàn bộ lý thuyết Machine Learning hiện đại.
IID assumption – giả định mong manh nhất trong Machine Learning

(Chú thích ảnh: IID – Giả định mong manh nhất)
Phần lớn các phân tích Machine Learning cổ điển đều dựa trên giả định:
(x, y) ∼ Ptrain = Ptest
Tức là dữ liệu huấn luyện và dữ liệu trong tương lai:
- Độc lập (Independent)
- Cùng phân phối (Identically Distributed)
Trong môi trường production, giả định IID gần như luôn bị phá vỡ:
- Hành vi người dùng thay đổi theo thời gian
- Hệ thống ML tác động ngược trở lại dữ liệu mà nó quan sát
- Phân phối feature bị drift dần
- Business policy mới tạo ra dữ liệu chưa từng tồn tại
Do đó, generalization không thể chỉ được hiểu là test score cao.
Structural Risk Minimization – vượt ra ngoài Empirical Risk Minimization

(Chú thích ảnh: SRM Vượt Xa ERM)
Empirical Risk Minimization (ERM) tối ưu lỗi trên tập huấn luyện:
f̂ = argminf (1/n) Σ L(f(xi), yi)
ERM chỉ đảm bảo model fit tốt dữ liệu đã quan sát,
nhưng không kiểm soát độ phức tạp của mô hình.
Structural Risk Minimization (SRM) mở rộng mục tiêu tối ưu:
minf Remp(f) + λΩ(f)
Trong đó:
Remp: empirical risk trên training dataΩ(f): độ phức tạp của mô hình (regularization)
SRM cho thấy generalization phụ thuộc mạnh vào
cấu trúc của không gian hàm,
không chỉ vào số lượng dữ liệu.
Inductive Bias – lý do thật sự khiến model học được

(Chú thích ảnh: Inductive Bias – Lý Do Ta Có Thể Học)
Inductive bias là tập hợp các giả định ngầm mà thuật toán Machine Learning áp đặt lên thế giới.
Inductive bias đến từ:
- Kiến trúc model (linear, tree, neural network…)
- Loss function
- Regularization
- Cách biểu diễn feature
Model không học mọi hàm có thể tồn tại.
Nó chỉ học những hàm phù hợp với bias đã được thiết kế sẵn.
Ví dụ:
- Linear model giả định quan hệ tuyến tính
- CNN giả định tính cục bộ và bất biến dịch chuyển
- L2 loss giả định nhiễu Gaussian
Generalization xảy ra khi inductive bias
phù hợp với cấu trúc sinh dữ liệu của thế giới thật.
Vì sao deep learning vẫn generalize dù over-parameterized?

(Chú thích ảnh: Nghịch Lý Deep Learning)
Các mô hình deep learning hiện đại thường có số lượng tham số lớn hơn rất nhiều
so với số mẫu huấn luyện.
Theo trực giác cổ điển, điều này phải dẫn đến overfitting.
Nhưng trong thực tế, các yếu tố như:
- Stochastic Gradient Descent (SGD)
- Initialization
- Kiến trúc mạng
đã tạo ra implicit regularization.
Quá trình tối ưu không tìm nghiệm bất kỳ,
mà ưu tiên các nghiệm:
- Có cấu trúc
- Có biên phẳng (flat minima)
- Phù hợp inductive bias
Do đó, generalization không mâu thuẫn với over-parameterization.
Khi generalization thất bại trong production

(Chú thích ảnh: Khi Generalization Thất Bại)
Một số failure mode phổ biến:
- Validation score cao nhưng production performance sụp đổ
- Model nhạy cảm với distribution shift nhỏ
- Dự đoán thiếu ổn định theo thời gian
Nguyên nhân thường không nằm ở thuật toán,
mà ở:
- Giả định phân phối sai ngay từ đầu
- Loss function không phản ánh chi phí thực
- Feature engineering mang bias nguy hiểm
Khi inductive bias sai:
- Thêm data không cứu được
- Model lớn chỉ che lỗi
- Deep learning làm sai nhanh hơn
Pseudo-code: generalization là thuộc tính của hệ thống

(Chú thích ảnh: Generalization Là Thuộc Tính Hệ Thống)
while system_running:
x = collect_input()
y_hat = model.predict(x)
uncertainty = estimate_uncertainty(y_hat)
decision = policy(y_hat, uncertainty)
execute(decision)
monitor_distribution_shift()
Generalization là thuộc tính của cả hệ thống,
không chỉ của riêng model.
Kết luận
Generalization trong Machine Learning không phải hiện tượng ngẫu nhiên hay “ăn may”.
Nó là hệ quả trực tiếp của:
- Giả định đúng về dữ liệu
- Inductive bias phù hợp
- Formulation bài toán chính xác ngay từ đầu
Nếu không hiểu đúng generalization:
- Model càng phức tạp → hành vi càng khó kiểm soát
- Data càng nhiều → sai lệch càng khó phát hiện
- Metric càng đẹp → rủi ro production càng lớn
Hiểu generalization là hiểu giới hạn thật sự của Machine Learning.
👉 Author: Duong Duy
👉 Để làm chủ tư duy đúng đắn và trang bị kỹ năng xây dựng mô hình Machine Learning thực chiến, bạn hãy tham khảo ngay lộ trình: Khóa học Python & Machine Learning – Từ Zero đến Hero tại MCNA.
🎓 MCNA Technology School – Tiên phong đào tạo ứng dụng AI, Big Data, Business Intelligence, Power BI, Python, SQL, Excel, VBA, RPA cho cá nhân và doanh nghiệp tại Việt Nam.
💼 Đối tác đào tạo của hơn 300+ doanh nghiệp lớn: Viettel Global, Masan Group, Techcombank, VPBank, Daikin, VTV, VinUni, ĐH Ngoại Thương…
🌐 Tìm hiểu thêm:
Website: https://mcna.vn
Fanpage: facebook.com/mcnatechnologyschool
Group cộng đồng: facebook.com/groups/DataAnalyticsVietnam
YouTube: youtube.com/@mcna.technology.school
LinkedIn: https://www.linkedin.com/company/mcna-vn
📞 Hotline: Tư vấn khóa học & doanh nghiệp: 0939.866.825 (Mr. Minh Khang)
🏢 Hệ thống cơ sở:
Cơ sở 01: 30 Trung Liệt, Đống Đa, Hà Nội
Cơ sở 02: Liền kề 44B, TT2, Khu đô thị Văn Quán, Hà Đông, Hà Nội
Cơ sở 03: The BIB Space, 50B Phan Tây Hồ, Phường Cầu Kiệu, HCMC
📌 Theo dõi MCNA để không bỏ lỡ các tài liệu, sự kiện & khóa học chuyên sâu về Data & AI.
Bài viết liên quan về Machine Learning
Để hiểu thêm bản chất và cốt lõi của Machine Learning, bạn có thể tham khảo: Bản chất Machine Learning là gì?
Để hiểu thêm về Empirical Risk Minimization (ERM), hãy tham khảo: ERM – Nền móng của Machine Learning
Để hiểu thêm về Bias-Variance, hãy tham khảo: Bias-Variance Decomposition: Công thức ai cũng học, nhưng tất ít người dùng đúng

