Site icon Nhạc lý căn bản – nhacly.com

Vấn đề Overfitting & Underfitting trong Machine Learning – Trí tuệ nhân tạo


Khi kiến thiết xây dựng mỗi mô hình học máy, tất cả chúng ta cần phải quan tâm hai yếu tố : Overfitting ( quá khớp ) và Underfitting ( chưa khớp ). Đây chính là nguyên do hầu hết khiến quy mô có độ đúng mực thấp .
Hãy cùng tìm hiểu và khám phá những khái niệm cơ bản trong học máy và những yếu tố tương quan tới Overfitting và Underfitting .

Ước lượng hàm mục tiêu trong Machine Learning

Học có giám sát ( Supervised Learning ) là phương pháp học chính xác nhất trong học máy. Mô hình ước đạt hàm mục tiêu ( f ) sẽ ánh xạ mỗi thành phần thuộc tập nguồn vào ( X ) sang một thành phần ( giao động ) tương ứng thuộc tập ( Y )

Y = f(X)

Dựa theo những thuộc tính nguồn vào, ta hoàn toàn có thể màn biểu diễn được những nhãn đầu ra. Dự báo nhãn và thậm chí còn ta còn hoàn toàn có thể xác lập giá trị của nhãn trải qua Machine Learning .
Mô hình học máy được thiết kế xây dựng qua bộ tài liệu giảng dạy. Kỳ vọng của quy mô là tổng quát hóa được đặc trưng ( xê dịch ) đúng chuẩn nhất với toàn diện và tổng thể. Điều này có ý nghĩa rất quan trọng. Vì dữ liệu đầy vào của mỗi quy mô chỉ là một tập mẫu trong tổng thể và toàn diện, hoàn toàn có thể không mang tính đại diện thay mặt cao và chứa nhiều nhiễu .

Tính phổ quát trong học máy

Trong học máy, hàm mục tiêu được kiến thiết xây dựng trên bộ tài liệu huấn luyện và đào tạo theo chiêu thức đệ quy. Đây là chiêu thức giúp tìm được tính phổ quát ( tổng quát hóa ) từ bộ tài liệu mẫu đơn cử. Vậy tính phổ quát là gì ?
Phổ quát ( tổng quát ) là thước đo nhìn nhận một mô hình học máy được gọi là tốt hay không. Nó bộc lộ ở yếu tố một mô hình học máy hoàn toàn có thể rút ra được những quy luật cho tổng thể và toàn diện từ bộ tài liệu mẫu không ? Một quy mô có tính phổ quát, khi đó, quy mô sẽ vận dụng tốt với bất kì bộ tài liệu mới nào .
Tuy nhiên, trong quy trình học máy, ta cần quan tâm hai yếu tố. Đó là Overfitting và Underfitting. Đây là hai nguyên do chính trong việc khiến mô hình học máy có độ đúng chuẩn không cao. Hay nói cách khác là không bộc lộ được tính phổ quát của yếu tố .

Statistical Fit

Statistical Fit ( độ đúng mực trong thống kê ) là chỉ độ gần đúng của hàm xây dưng với hàm hàm mục tiêu. Các phương pháp được sử dụng trong thống kê khác với phương pháp thực thi trong học máy. Ví dụ, trong thống kê thường sử dụng những chiêu thức ước đạt để ước đạt hàm mục tiêu. Tuy nhiên, trong học máy, ta lại không sử dụng giải pháp đó. Học máy dựa trên việc học từ tài liệu, ta đưa ra quy mô giao động đúng chuẩn nhất từ bộ tài liệu mẫu hoàn toàn có thể có nhiễu .
Statistical Fit cũng được sử dụng trong học máy như một thước đo. Một số kỹ thuật trong thống kê cũng được vận dụng trong học máy ( ví dụ : tính sai số ) .

Overfitting trong học
máy

Overfitting là hiện tượng kỳ lạ khi quy mô kiến thiết xây dựng biểu lộ được chi tiết cụ thể bộ tài liệu giảng dạy. Điều này có nghĩa là cả tài liệu nhiễu, hoặc tài liệu không bình thường trong tập huấn luyện đều được chọn và học để đưa ra quy luật quy mô. Những quy luật này sẽ không có ý nghĩa nhiều khi vận dụng với bộ tài liệu mới hoàn toàn có thể có dạng tài liệu nhiễu khác. Khi đó, nó ảnh hưởng tác động xấu đi tới độ đúng mực của quy mô nói chung .
Hiện tượng Overfitting thường xảy ra trong những quy mô phi tham số hoặc phi tuyến, những quy mô có sự linh động cao trong kiến thiết xây dựng hàm mục tiêu .
Như vậy, rất nhiều thuật toán học máy phi tham số sẽ gồm có những thông số kỹ thuật và kĩ thuật để hạn chế và số lượng giới hạn múc độ học cụ thể của quy mô .
Ví dụ, bài toán cây quyết định hành động là một thuật toán học máy phi tham số. Đây là thuật toán thường xảy ra hiện tượng kỳ lạ Overfitting. Ta hoàn toàn có thể tránh hiện tượng kỳ lạ này bằng chiêu thức cắt tỉa cây ( pruning ) .

Underfitting trong học máy

Underfitting ( chưa khớp ) là hiện tượng kỳ lạ khi quy mô thiết kế xây dựng chưa có độ đúng mực cao trong tập dữ liệu đào tạo và giảng dạy cũng như tổng quát hóa với toàn diện và tổng thể tài liệu. Khi hiện tượng kỳ lạ Underfitting xảy ra, quy mô đó sẽ không phải là tốt với bất kì bộ tài liệu nào trong yếu tố đang nhắc tới .
Hiện tượng Underfitting thường ít xảy ra trong bài toán hơn. Khi Underfitting xảy ra, ta hoàn toàn có thể khắc phục bằng cách đổi khác thuật toán hoặc là bổ trợ thêm tài liệu nguồn vào .

Good Fittiing trong học máy

Good Fitting ( vừa khớp ) là nằm giữa Underfitting và Overfitting. Mô hình cho ra hiệu quả hài hòa và hợp lý với cả tập tài liệu đào tạo và giảng dạy và những tập dữ liệu mới. Đây là quy mô lý tưởng mang được tính tổng quát và khớp được với nhiều tài liệu mẫu và cả những tài liệu mới .
Good Fitting là tiềm năng của mỗi bài toán. Tuy nhiên, trên trong thực tiễn, yếu tố này rất khó thực thi. Để tìm được điểm Good Fitting, ta phải theo dõi hiệu suất của thuật toán học máy theo thời hạn khi thuật toán triển khai việc học trên bộ tài liệu giảng dạy. Ta hoàn toàn có thể miêu tả và biểu lộ những thông số kỹ thuật quy mô, độ đúng mực của quy mô trên cả hai tập tài liệu giảng dạy và giảng dạy .
Theo thời hạn và theo quy trình học, sai số của quy mô trên bộ tài liệu đào tạo và giảng dạy sẽ giảm xuống. Tuy nhiên, nếu quy trình training quá lâu, độ đúng chuẩn của quy mô hoàn toàn có thể giảm do yếu tố Overfitting, và việc học sẽ triển khai trên cả tài liệu nhiễu và tài liệu không bình thường của bộ giảng dạy. Đồng thời, sai số với bộ tài liệu kiểm định sẽ tăng lên do năng lực phổ quát hóa của quy mô giảm xuống .

Chúng ta kì vọng rằng tại thời điểm
trước khi sai số trên bộ dữ liệu có dấu hiệu tăng lên, khi đó, mô hình là tốt
nhất trên cả bộ dữ liệu huấn luyện và bộ dữ liệu kiểm định.

Bạn hoàn toàn có thể thực thi ví dụ với bất kỳ thuật toán nào. Đây không phải là kỹ thuật hữu dụng trong thực tiễn, chính do việc lựa chọn điểm dừng trong quy trình huấn luyện và đào tạo cần phải biết những giá trị trên bộ mẫu kiểm định, điều đó có nghĩa là, bộ tài liệu kiểm định không còn được coi là “ unseen ” hay độc lập khách quan với bộ tài liệu đào tạo và giảng dạy nữa. Bất kì sự hiểu biết nào về bộ tài liệu that data has leaked into the training procedure .
Trên đây có hai kỹ thuật mà bạn hoàn toàn có thể sử dụng để tìm ra điểm dừng tốt nhất trong quy trình đào tạo và giảng dạy, đó là kỹ thuật lấy lại mẫu ( resampling methods ) và kỹ thuật validation .

Làm
thế nào để tránh Overfitting?

Cả hai hiện tượng kỳ lạ Overfitting và Underfitting đều khiến quy mô kiến thiết xây dựng có độ đúng chuẩn kém. Nhưng lúc bấy giờ, yếu tố thông dụng nhất Open là Overfitting .
Overfitting thực sự là một yếu tố quan trọng chính bới việc nhìn nhận mô hình học máy trên bộ tài liệu huấn luyện và đào tạo sẽ độc lạ với việc nhìn nhận độ đúng chuẩn của toàn diện và tổng thể ( những tài liệu mà quy mô chưa gặp khi nào ) .
Có hai kỹ thuật quan trọng trong việc nhìn nhận mô hình học máy và tránh hiện tượng kỳ lạ overfitting :

  • Sử dụng kỹ thuật lấy lại
    mẫu để ước lượng độ chính xác của mô hình
  • Sử dụng tập Validation
    test

Lấy lại mẫu (resampling methods) là kỹ thuật phổ biến hơn. Khi đó, ta sẽ chia tập dữ liệu thành k tập con. Cách này được gọi là k-fold cross validation. Điều này cho phép bạn thực hiện huấn luyện trên các tập dữ liệu khác nhau k lần, và từ đó, xây dựng ước lượng độ chính xác của mô hình học máy với dữ liệu mới.

Sử dụng Cross-validation là một tiêu chuẩn tốt trong học máy để ước đạt độ đúng mực của quy mô với bộ tài liệu mới. Còn trường hợp bạn có nhiều tài liệu, việc sử dụng tập Validation sẽ là một chiêu thức tuyệt vời .

Tóm tắt

Bài này trình làng miêu tả cho bạn rằng những yếu tố trong học máy được xử lý bằng những chiêu thức thống kê .
Bạn được học rằng tổng quát hóa quy mô là tìm ra những quy luật của bộ tài liệu và vận dụng với bộ tài liệu mới đạt được độ đúng mực cao. Cuối cùng, bạn được tìm hiểu và khám phá về những thuật ngữ trong kiến thiết xây dựng quy mô học máy .

  • Overfitting: khi mô hình có độ chính xác cao với bộ dữ liệu huấn luyện, nhưng độ chính xác thấp với bộ dữ liệu mới (hay dữ liệu tổng thể).
  • Underfitting: khi mô hình có độ chính xác thấp trên cả bộ dữ liệu huấn luyện và bộ dữ liệu mô tả tổng thể mới.

Nguồn : https://machinelearningmastery.com

—–
” Vấn đề Overfitting và Underfitting trong Machine Learning, ” Trí tuệ tự tạo, Ngày xuất bản : 02/04/2019, URL : http://139.180.218.5/kien-thuc/van-de-overfitting-underfitting-trong-machine-learning/, Ngày truy vấn : 15/05/2022 .
Bạn muốn trích dẫn bài này : —–

  • Details: *

Exit mobile version