Đóng gói (Tổng hợp Bootstrap) - Tổng quan, Cách thức hoạt động, Ưu điểm

Học máy tập hợp chủ yếu có thể được phân loại thành đóng gói và tăng cường. Kỹ thuật đóng bao rất hữu ích cho cả hồi quy và phân loại thống kê. Tính năng đóng bao được sử dụng với cây quyết định, nơi nó nâng cao đáng kể độ ổn định của mô hình trong việc giảm phương sai và cải thiện độ chính xác, giúp loại bỏ thách thức của việc trang bị quá nhiều.

Đóng bao

Hình 1. Luồng đóng gói (Bootstrap Aggregation). Nguồn

Việc đóng gói trong học máy tổng hợp cần một số mô hình yếu, tổng hợp các dự đoán để chọn ra dự đoán tốt nhất. Các mô hình yếu chuyên về các phần riêng biệt của không gian tính năng, cho phép tích hợp các dự đoán đòn bẩy đến từ mọi mô hình để đạt được mục đích tối đa.

Quick Su mmary

  • Đóng gói và tăng cường là hai phương pháp chính của máy học tổng hợp.
  • Đóng bao là một phương pháp tổng hợp có thể được sử dụng trong hồi quy và phân loại.
  • Nó còn được gọi là tổng hợp bootstrap, tạo thành hai phân loại của đóng bao.

Bootstrapping là gì?

Đóng bao gồm hai phần: tập hợp và đóng gói. Bootstrapping là một phương pháp lấy mẫu, trong đó một mẫu được chọn từ một tập hợp, sử dụng phương pháp thay thế. Thuật toán học tập sau đó được chạy trên các mẫu đã chọn.

Kỹ thuật bootstrapping sử dụng lấy mẫu có thay thế để làm cho quy trình lựa chọn hoàn toàn ngẫu nhiên. Khi một mẫu được chọn mà không thay thế, các lựa chọn tiếp theo của các biến luôn phụ thuộc vào các lựa chọn trước đó, do đó làm cho tiêu chí không phải là ngẫu nhiên.

Tổng hợp là gì?

Các dự đoán của mô hình trải qua quá trình tổng hợp để kết hợp chúng cho dự đoán cuối cùng nhằm xem xét tất cả các kết quả có thể. Việc tổng hợp có thể được thực hiện dựa trên tổng số kết quả hoặc trên xác suất của các dự đoán thu được từ việc khởi động của mọi mô hình trong quy trình.

Phương pháp Ensemble là gì?

Cả đóng bao và tăng cường tạo thành các kỹ thuật tổng hợp nổi bật nhất. Phương pháp tổng hợp là một nền tảng học máy giúp đào tạo nhiều mô hình thông qua việc sử dụng cùng một thuật toán học tập. Phương thức tổng hợp là một thành viên của một nhóm nhiều bộ phân loại lớn hơn.

Đa phân loại là một nhóm gồm nhiều người học, gồm hàng nghìn người, với mục tiêu chung là có thể kết hợp và giải quyết một vấn đề chung. Một thể loại khác của đa phân loại là phương pháp lai. Các phương pháp kết hợp sử dụng một nhóm người học, nhưng không giống như nhiều bộ phân loại, chúng có thể sử dụng các phương pháp học tập riêng biệt.

Việc học tập phải đối mặt với nhiều thách thức, chẳng hạn như lỗi chủ yếu là do sai lệch, nhiễu và phương sai. Độ chính xác và tính ổn định của máy học được đảm bảo bằng các phương pháp tổng hợp như đóng gói và tăng cường. Sự kết hợp nhiều bộ phân loại làm giảm phương sai, đặc biệt khi các bộ phân loại không ổn định và chúng quan trọng trong việc trình bày kết quả đáng tin cậy hơn một bộ phân loại duy nhất.

Việc áp dụng bao gồm hoặc tăng cường yêu cầu lựa chọn thuật toán người học cơ sở trước tiên. Ví dụ: nếu người ta chọn một cây phân loại, thì việc tăng cường và đóng gói sẽ là một nhóm cây có kích thước bằng với sở thích của người dùng.

Ưu điểm và nhược điểm của đóng bao

Rừng ngẫu nhiên Rừng ngẫu nhiên Rừng ngẫu nhiên là một kỹ thuật được sử dụng trong mô hình hóa các dự đoán và phân tích hành vi và được xây dựng trên cây quyết định. Một khu rừng ngẫu nhiên chứa nhiều cây quyết định là một trong những thuật toán đóng gói phổ biến nhất. Việc bỏ túi mang lại lợi thế là cho phép nhiều người học yếu kết hợp nỗ lực để vượt qua một người học mạnh. Nó cũng giúp giảm phương sai, do đó loại bỏ việc trang bị quá nhiều Overfitting Overfitting là một thuật ngữ được sử dụng trong thống kê đề cập đến lỗi mô hình hóa xảy ra khi một hàm tương ứng quá gần với một tập dữ liệu cụ thể của các mô hình trong quy trình.

Một bất lợi của việc đóng bao là nó làm mất khả năng diễn giải của một mô hình. Mô hình kết quả có thể gặp nhiều sai lệch khi quy trình thích hợp bị bỏ qua. Mặc dù việc đóng bao có độ chính xác cao, nhưng nó có thể tốn kém về mặt tính toán và điều này có thể không khuyến khích việc sử dụng nó trong một số trường hợp nhất định.

Bagging so với tăng cường

Kỹ thuật tốt nhất để sử dụng giữa đóng bao và tăng cường phụ thuộc vào dữ liệu có sẵn, mô phỏng và bất kỳ trường hợp hiện có nào tại thời điểm đó. Phương sai của một ước tính được giảm đáng kể bằng các kỹ thuật đóng bao và tăng cường trong quá trình kết hợp, do đó tăng độ chính xác. Do đó, các kết quả thu được chứng tỏ độ ổn định cao hơn các kết quả riêng lẻ.

Khi một sự kiện đưa ra thách thức về hiệu suất thấp, kỹ thuật đóng bao sẽ không dẫn đến sai lệch tốt hơn. Tuy nhiên, kỹ thuật tăng cường tạo ra một mô hình thống nhất với sai số thấp hơn vì nó tập trung vào việc tối ưu hóa các ưu điểm và giảm các khuyết điểm trong một mô hình duy nhất.

Khi thử thách trong một mô hình đơn lẻ là quá mức, phương pháp đóng bao hoạt động tốt hơn so với kỹ thuật tăng cường. Tăng cường đối mặt với thách thức xử lý tình trạng quá vừa vặn vì bản thân nó đi kèm với việc lắp quá mức.

Bài đọc liên quan

Finance cung cấp Chứng chỉ FMVA® cho Nhà phân tích mô hình và định giá tài chính (FMVA) ™ Tham gia cùng hơn 350.600 sinh viên làm việc cho các công ty như Amazon, JP Morgan và chương trình chứng nhận Ferrari dành cho những người muốn nâng cao sự nghiệp của mình. Để tiếp tục học hỏi và phát triển nền tảng kiến ​​thức của bạn, vui lòng khám phá các tài nguyên Tài chính bổ sung có liên quan bên dưới:

  • Lấy mẫu theo cụm Chọn mẫu theo cụm Trong thống kê, lấy mẫu theo cụm là phương pháp chọn mẫu trong đó toàn bộ quần thể nghiên cứu được chia thành các đối tượng bên ngoài đồng nhất nhưng bên trong
  • Thành kiến ​​quá tự tin Thành kiến ​​quá tự tin Thành kiến ​​quá tự tin là một đánh giá sai lầm và sai lệch về kỹ năng, trí tuệ hoặc tài năng của chúng ta. Nói tóm lại, đó là niềm tin tự cao tự đại rằng chúng ta tốt hơn chúng ta thực tế. Nó có thể là một sự thiên vị nguy hiểm và rất phổ biến trong tài chính hành vi và thị trường vốn.
  • Phân tích hồi quy Phân tích hồi quy Phân tích hồi quy là một tập hợp các phương pháp thống kê được sử dụng để ước tính các mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Nó có thể được sử dụng để đánh giá sức mạnh của mối quan hệ giữa các biến và để mô hình hóa mối quan hệ trong tương lai giữa chúng.
  • Chuỗi thời gian Phân tích dữ liệu Chuỗi thời gian Phân tích dữ liệu Chuỗi thời gian Phân tích dữ liệu chuỗi thời gian là việc phân tích các tập dữ liệu thay đổi trong một khoảng thời gian. Bộ dữ liệu chuỗi thời gian ghi lại các quan sát của cùng một biến trong các thời điểm khác nhau. Các nhà phân tích tài chính sử dụng dữ liệu chuỗi thời gian chẳng hạn như biến động giá cổ phiếu hoặc doanh số bán hàng của công ty theo thời gian