Generalization trong Machine Learning là gì?

Generalization Trong Ml

Vì sao model có thể dự đoán tốt trên dữ liệu chưa từng thấy?



Generalization trong Machine Learning là khả năng của model học được các quy luật mang tính khái quát từ dữ liệu huấn luyện và áp dụng hiệu quả lên dữ liệu mới chưa từng xuất hiện, trong bối cảnh các giả định về phân phối dữ liệu luôn có nguy cơ bị phá vỡ trong thực tế.


Generalization – vấn đề trung tâm của Machine Learning

1. Vấn đề Trung Tâm Của Ml

 (Chú thích ảnh: Vấn đề trung tâm của Machine Learning)

Nếu Machine Learning chỉ đơn thuần là việc ghi nhớ dữ liệu huấn luyện, thì về mặt bản chất, mọi hệ thống ML sẽ thất bại ngay khi được triển khai vào môi trường production.

Tuy nhiên, thực tế cho thấy:

  • Model có thể dự đoán tốt trên dữ liệu chưa từng xuất hiện trong training set
  • Ngay cả khi dữ liệu test không hoàn toàn giống dữ liệu train

Điều này cho thấy model không chỉ học các điểm dữ liệu riêng lẻ, mà đã học được cấu trúc thống kê tiềm ẩn phía sau dữ liệu.

Vì sao generalization lại xảy ra?

Đây không phải hiện tượng hiển nhiên, mà là câu hỏi cốt lõi của toàn bộ lý thuyết Machine Learning hiện đại.


IID assumption – giả định mong manh nhất trong Machine Learning

2. IID Giả Định Mong Manh Nhất

 (Chú thích ảnh: IID – Giả định mong manh nhất)

Phần lớn các phân tích Machine Learning cổ điển đều dựa trên giả định:

(x, y) ∼ Ptrain = Ptest

Tức là dữ liệu huấn luyện và dữ liệu trong tương lai:

  • Độc lập (Independent)
  • Cùng phân phối (Identically Distributed)

Trong môi trường production, giả định IID gần như luôn bị phá vỡ:

  • Hành vi người dùng thay đổi theo thời gian
  • Hệ thống ML tác động ngược trở lại dữ liệu mà nó quan sát
  • Phân phối feature bị drift dần
  • Business policy mới tạo ra dữ liệu chưa từng tồn tại

Do đó, generalization không thể chỉ được hiểu là test score cao.


Structural Risk Minimization – vượt ra ngoài Empirical Risk Minimization

3. SRM Vượt Xa ERM

 (Chú thích ảnh: SRM Vượt Xa ERM)

Empirical Risk Minimization (ERM) tối ưu lỗi trên tập huấn luyện:

f̂ = argminf (1/n) Σ L(f(xi), yi)

ERM chỉ đảm bảo model fit tốt dữ liệu đã quan sát,
nhưng không kiểm soát độ phức tạp của mô hình.

Structural Risk Minimization (SRM) mở rộng mục tiêu tối ưu:

minf Remp(f) + λΩ(f)

Trong đó:

  • Remp: empirical risk trên training data
  • Ω(f): độ phức tạp của mô hình (regularization)

SRM cho thấy generalization phụ thuộc mạnh vào
cấu trúc của không gian hàm,
không chỉ vào số lượng dữ liệu.


Inductive Bias – lý do thật sự khiến model học được

4. Inductive Bias LÝ Do Ta CÓ ThỂ HỌc

 (Chú thích ảnh: Inductive Bias – Lý Do Ta Có Thể Học)

Inductive bias là tập hợp các giả định ngầm mà thuật toán Machine Learning áp đặt lên thế giới.

Inductive bias đến từ:

  • Kiến trúc model (linear, tree, neural network…)
  • Loss function
  • Regularization
  • Cách biểu diễn feature

Model không học mọi hàm có thể tồn tại.

Nó chỉ học những hàm phù hợp với bias đã được thiết kế sẵn.

Ví dụ:

  • Linear model giả định quan hệ tuyến tính
  • CNN giả định tính cục bộ và bất biến dịch chuyển
  • L2 loss giả định nhiễu Gaussian

Generalization xảy ra khi inductive bias
phù hợp với cấu trúc sinh dữ liệu của thế giới thật.


Vì sao deep learning vẫn generalize dù over-parameterized?

5. NghỊch LÝ Deep Learning

 (Chú thích ảnh: Nghịch Lý Deep Learning)

Các mô hình deep learning hiện đại thường có số lượng tham số lớn hơn rất nhiều
so với số mẫu huấn luyện.

Theo trực giác cổ điển, điều này phải dẫn đến overfitting.

Nhưng trong thực tế, các yếu tố như:

  • Stochastic Gradient Descent (SGD)
  • Initialization
  • Kiến trúc mạng

đã tạo ra implicit regularization.

Quá trình tối ưu không tìm nghiệm bất kỳ,
mà ưu tiên các nghiệm:

  • Có cấu trúc
  • Có biên phẳng (flat minima)
  • Phù hợp inductive bias

Do đó, generalization không mâu thuẫn với over-parameterization.


Khi generalization thất bại trong production

6. Khi Generalization ThẤt BẠi

 (Chú thích ảnh: Khi Generalization Thất Bại)

Một số failure mode phổ biến:

  • Validation score cao nhưng production performance sụp đổ
  • Model nhạy cảm với distribution shift nhỏ
  • Dự đoán thiếu ổn định theo thời gian

Nguyên nhân thường không nằm ở thuật toán,
mà ở:

  • Giả định phân phối sai ngay từ đầu
  • Loss function không phản ánh chi phí thực
  • Feature engineering mang bias nguy hiểm

Khi inductive bias sai:

  • Thêm data không cứu được
  • Model lớn chỉ che lỗi
  • Deep learning làm sai nhanh hơn

Pseudo-code: generalization là thuộc tính của hệ thống

7. Generalization LÀ ThuỘc TÍnh HỆ ThỐng

 (Chú thích ảnh: Generalization Là Thuộc Tính Hệ Thống)


while system_running:
    x = collect_input()
    y_hat = model.predict(x)
    uncertainty = estimate_uncertainty(y_hat)
    decision = policy(y_hat, uncertainty)
    execute(decision)
    monitor_distribution_shift()

Generalization là thuộc tính của cả hệ thống,
không chỉ của riêng model.


Kết luận

Generalization trong Machine Learning không phải hiện tượng ngẫu nhiên hay “ăn may”.

Nó là hệ quả trực tiếp của:

  • Giả định đúng về dữ liệu
  • Inductive bias phù hợp
  • Formulation bài toán chính xác ngay từ đầu

Nếu không hiểu đúng generalization:

  • Model càng phức tạp → hành vi càng khó kiểm soát
  • Data càng nhiều → sai lệch càng khó phát hiện
  • Metric càng đẹp → rủi ro production càng lớn


Hiểu generalization là hiểu giới hạn thật sự của Machine Learning.


👉 Author: Duong Duy

👉 Để làm chủ tư duy đúng đắn và trang bị kỹ năng xây dựng mô hình Machine Learning thực chiến, bạn hãy tham khảo ngay lộ trình: Khóa học Python & Machine Learning – Từ Zero đến Hero tại MCNA.

🎓 MCNA Technology School – Tiên phong đào tạo ứng dụng AI, Big Data, Business Intelligence, Power BI, Python, SQL, Excel, VBA, RPA cho cá nhân và doanh nghiệp tại Việt Nam.

💼 Đối tác đào tạo của hơn 300+ doanh nghiệp lớn: Viettel Global, Masan Group, Techcombank, VPBank, Daikin, VTV, VinUni, ĐH Ngoại Thương…

🌐 Tìm hiểu thêm:
Website: https://mcna.vn
Fanpage: facebook.com/mcnatechnologyschool
Group cộng đồng: facebook.com/groups/DataAnalyticsVietnam
YouTube: youtube.com/@mcna.technology.school
LinkedIn: https://www.linkedin.com/company/mcna-vn

📞 Hotline: Tư vấn khóa học & doanh nghiệp: 0939.866.825 (Mr. Minh Khang)

🏢 Hệ thống cơ sở:
Cơ sở 01: 30 Trung Liệt, Đống Đa, Hà Nội
Cơ sở 02: Liền kề 44B, TT2, Khu đô thị Văn Quán, Hà Đông, Hà Nội
Cơ sở 03: The BIB Space, 50B Phan Tây Hồ, Phường Cầu Kiệu, HCMC

📌 Theo dõi MCNA để không bỏ lỡ các tài liệu, sự kiện & khóa học chuyên sâu về Data & AI.


Bài viết liên quan về Machine Learning

Để hiểu thêm bản chất và cốt lõi của Machine Learning, bạn có thể tham khảo: Bản chất Machine Learning là gì?

Để hiểu thêm về Empirical Risk Minimization (ERM), hãy tham khảo: ERM – Nền móng của Machine Learning

Để hiểu thêm về Bias-Variance, hãy tham khảo: Bias-Variance Decomposition: Công thức ai cũng học, nhưng tất ít người dùng đúng

Chỉ mục