Phương pháp gộp - Tổng quan, Danh mục, Loại chính

Phương pháp kết hợp là các kỹ thuật nhằm cải thiện độ chính xác của kết quả trong các mô hình bằng cách kết hợp nhiều mô hình thay vì sử dụng một mô hình duy nhất. Các mô hình kết hợp làm tăng độ chính xác của kết quả đáng kể. Điều này đã thúc đẩy sự phổ biến của các phương pháp tổng hợp trong học máy.

Tóm tắt nhanh

Các phương pháp tập hợp nhằm mục đích cải thiện khả năng dự đoán trong các mô hình bằng cách kết hợp một số mô hình để tạo thành một mô hình rất đáng tin cậy.
Các phương pháp tổng hợp phổ biến nhất là tăng cường, đóng gói và xếp chồng.
Các phương pháp gộp là lý tưởng để hồi quy và phân loại, nơi chúng giảm độ chệch và phương sai để tăng độ chính xác của mô hình.

Danh mục các phương pháp tập hợp

Các phương pháp tập hợp được chia thành hai loại lớn, tức là, các kỹ thuật tập hợp tuần tự và các phương pháp tập hợp song song. Các kỹ thuật tổng hợp tuần tự tạo ra những người học cơ sở theo một trình tự, ví dụ: Tăng cường thích ứng (AdaBoost). Thế hệ tuần tự của những người học cơ sở thúc đẩy sự phụ thuộc giữa những người học cơ sở. Hiệu suất của mô hình sau đó được cải thiện bằng cách gán trọng số cao hơn cho những người học đã trình bày sai trước đây.

Trong các kỹ thuật tổng hợp song song, các bộ học cơ sở được tạo ra theo một định dạng song song, ví dụ: rừng ngẫu nhiên Rừng ngẫu nhiên Rừng ngẫu nhiên là một kỹ thuật được sử dụng trong mô hình dự đoán và phân tích hành vi và được xây dựng trên cây quyết định. Một khu rừng ngẫu nhiên chứa nhiều cây quyết định. Phương pháp song song sử dụng thế hệ song song của những người học cơ bản để khuyến khích sự độc lập giữa những người học cơ sở. Tính độc lập của người học cơ sở làm giảm đáng kể sai số do áp dụng các giá trị trung bình.

Phần lớn các kỹ thuật tổng hợp áp dụng một thuật toán duy nhất trong việc học cơ sở, dẫn đến sự đồng nhất ở tất cả những người học cơ sở. Người học cơ sở đồng nhất đề cập đến người học cơ sở cùng loại, có phẩm chất tương tự. Các phương pháp khác áp dụng những người học cơ sở không đồng nhất, làm phát sinh các tập hợp không đồng nhất. Những người học cơ sở không đồng nhất là những người học thuộc các kiểu riêng biệt.

Các loại chính của phương pháp kết hợp

1. Đóng bao

Bagging, dạng viết tắt của tổng hợp bootstrap, được áp dụng chủ yếu trong phân loại và hồi quy Phân tích hồi quy Phân tích hồi quy là một tập hợp các phương pháp thống kê được sử dụng để ước tính mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Nó có thể được sử dụng để đánh giá sức mạnh của mối quan hệ giữa các biến và để mô hình hóa mối quan hệ trong tương lai giữa chúng. . Nó làm tăng độ chính xác của các mô hình thông qua việc sử dụng cây quyết định, làm giảm phương sai ở một mức độ lớn. Việc giảm phương sai làm tăng độ chính xác, do đó loại bỏ việc trang bị quá mức, vốn là một thách thức đối với nhiều mô hình dự đoán.

Đóng bao được phân thành hai loại, tức là đóng gói và tập hợp. Bootstrapping là một kỹ thuật lấy mẫu trong đó các mẫu được lấy từ toàn bộ (tập hợp) bằng cách sử dụng quy trình thay thế. Việc lấy mẫu với phương pháp thay thế giúp cho quá trình lựa chọn trở nên ngẫu nhiên. Thuật toán học cơ sở được chạy trên các mẫu để hoàn thành quy trình.

Tổng hợp trong đóng gói được thực hiện để kết hợp tất cả các kết quả có thể có của dự đoán và ngẫu nhiên hóa kết quả. Nếu không có sự tổng hợp, các dự đoán sẽ không chính xác, bởi vì tất cả các kết quả không được xem xét. Do đó, tổng hợp dựa trên các thủ tục khởi động xác suất hoặc trên cơ sở tất cả các kết quả của các mô hình dự đoán.

Việc đóng gói có lợi vì những người học cơ bản yếu được kết hợp để tạo thành một người học mạnh duy nhất ổn định hơn những người học đơn lẻ. Nó cũng loại bỏ bất kỳ phương sai nào, do đó làm giảm sự trang bị quá mức của các mô hình. Một hạn chế của việc đóng bao là nó đắt về mặt tính toán. Do đó, nó có thể dẫn đến sai lệch nhiều hơn cho các mô hình khi quy trình đóng bao phù hợp bị bỏ qua.

2. Thúc đẩy

Tăng cường là một kỹ thuật tổng hợp học hỏi từ những sai lầm của dự đoán trước đó để đưa ra dự đoán tốt hơn trong tương lai. Kỹ thuật này kết hợp một số người học cơ bản yếu để tạo thành một người học giỏi, do đó cải thiện đáng kể khả năng dự đoán của các mô hình. Việc thúc đẩy hoạt động bằng cách sắp xếp những người học yếu theo một trình tự, sao cho những người học yếu học từ những người học tiếp theo trong trình tự để tạo ra các mô hình dự đoán tốt hơn.

Tăng cường có nhiều hình thức, bao gồm tăng cường độ dốc, Tăng cường thích ứng (AdaBoost) và XGBoost (Tăng cường độ dốc cực cao). AdaBoost sử dụng những người học yếu ở dạng cây quyết định, phần lớn bao gồm một phần tách được phổ biến gọi là gốc quyết định. Cơ sở quyết định chính của AdaBoost bao gồm các quan sát có trọng số tương tự.

Tăng cường Gradient Tăng cường Gradient Tăng cường Gradient là một kỹ thuật được sử dụng trong việc tạo các mô hình để dự đoán. Kỹ thuật này chủ yếu được sử dụng trong các thủ tục hồi quy và phân loại. thêm các phần tử dự đoán một cách tuần tự vào nhóm, trong đó các phần tử dự đoán trước sẽ sửa chữa các phần tử kế nhiệm của chúng, do đó tăng độ chính xác của mô hình. Các yếu tố dự đoán mới phù hợp để chống lại các tác động của sai sót trong các yếu tố dự báo trước đó. Gradient of descent giúp tăng cường gradient trong việc xác định các vấn đề trong dự đoán của người học và phản hồi chúng cho phù hợp.

XGBoost sử dụng cây quyết định với độ dốc được tăng cường, cung cấp tốc độ và hiệu suất được cải thiện. Nó phụ thuộc rất nhiều vào tốc độ tính toán và hiệu suất của mô hình mục tiêu. Việc đào tạo mô hình phải tuân theo một trình tự, do đó làm cho việc triển khai các máy tăng độ dốc chậm.

3. Xếp chồng

Xếp chồng, một phương pháp tổng hợp khác, thường được gọi là tổng quát hóa xếp chồng. Kỹ thuật này hoạt động bằng cách cho phép một thuật toán đào tạo tập hợp một số dự đoán thuật toán học tương tự khác. Xếp chồng đã được thực hiện thành công trong hồi quy, ước tính mật độ, học từ xa và phân loại. Nó cũng có thể được sử dụng để đo tỷ lệ lỗi liên quan đến quá trình đóng bao.

Giảm phương sai

Phương pháp gộp là lý tưởng để giảm phương sai trong các mô hình, do đó tăng độ chính xác của các dự đoán. Phương sai bị loại bỏ khi nhiều mô hình được kết hợp để tạo thành một dự đoán duy nhất được chọn từ tất cả các dự đoán có thể có khác từ các mô hình kết hợp. Tập hợp các mô hình là hành động kết hợp các mô hình khác nhau để đảm bảo rằng dự đoán kết quả là tốt nhất có thể, dựa trên việc xem xét tất cả các dự đoán.

Tài nguyên bổ sung

Finance là nhà cung cấp chính thức của Chứng nhận CBCA ™ Ngân hàng & Tín dụng được Chứng nhận toàn cầu (CBCA) ™ Chứng chỉ CBCA ™ được Chứng nhận về Ngân hàng & Nhà phân tích Tín dụng (CBCA) ™ là tiêu chuẩn toàn cầu dành cho các nhà phân tích tín dụng bao gồm tài chính, kế toán, phân tích tín dụng, phân tích dòng tiền , lập mô hình giao ước, hoàn trả khoản vay và hơn thế nữa. chương trình chứng nhận, được thiết kế để giúp bất kỳ ai trở thành nhà phân tích tài chính đẳng cấp thế giới. Để tiếp tục thăng tiến sự nghiệp của bạn, các nguồn Tài chính bổ sung dưới đây sẽ hữu ích:

Elastic Net Elastic Net Elastic Net sử dụng tuyến tính các hình phạt từ cả kỹ thuật lasso và ridge để điều chỉnh mô hình hồi quy. Kỹ thuật kết hợp cả lasso và
Overfitting Overfitting Overfitting là một thuật ngữ được sử dụng trong thống kê đề cập đến lỗi mô hình hóa xảy ra khi một hàm tương ứng quá gần với một tập dữ liệu cụ thể
Khả năng mở rộng Khả năng mở rộng Khả năng mở rộng có thể nằm trong cả bối cảnh tài chính và chiến lược kinh doanh. Trong cả hai trường hợp, nó đại diện cho khả năng của đơn vị chịu được áp lực
Giả mạo Giả mạo Giả mạo Giả mạo là một phương thức giao dịch theo thuật toán gây rối loạn liên quan đến việc đặt giá thầu để mua hoặc đề nghị bán hợp đồng tương lai và hủy bỏ giá thầu hoặc đề nghị trước khi thực hiện giao dịch. Hoạt động này nhằm tạo ra một bức tranh sai lệch về nhu cầu hoặc sự bi quan giả tạo trên thị trường.