Khi tiếp cận một nhiệm vụ học máy, bạn đã bao giờ cảm thấy choáng váng bởi số lượng lớn các tính năng ?Hầu hết các nhà khoa học dữ liệu trải nghiệm thách thức áp đảo này hàng ngày. Trong khi thêm các tính năng làm phong phú dữ liệu, nó thường làm chậm quá trình đào tạo và khiến việc phát hiện các mẫu ẩn khó khăn hơn, dẫn đến lời nguyền nổi tiếng về chiều không gian (trong) .Hơn nữa, trong không gian chiều cao hiện tượng đáng ngạc nhiên xảy ra. Để mô tả khái niệm này với một sự tương tự, hãy nghĩ về tiểu thuyết Flatland, nơi các nhân vật sống trong một thế giới bằng phẳng (2 chiều) thấy mình choáng váng khi họ gặp phải một sinh vật 3 chiều. Theo cách tương tự, chúng tôi đấu tranh để hiểu rằng, trong không gian chiều cao, hầu hết các điểm là ngoại lệ và khoảng cách giữa các điểm thường lớn hơn dự kiến. Tất cả những hiện tượng này, nếu không được xử lý chính xác, có thể có ý nghĩa thảm hại đối với các mô hình học máy của chúng tôi.<figure><img src="https://pic2.feat.com/media/6929759623058/dimzou/reword/200/20231119_1B5CB9E_000004.jpg"/></figure>Trong bài đăng này, tôi sẽ giải thích một số kỹ thuật giảm chiều tiên tiến được sử dụng để giảm thiểu vấn đề này.Trong bài viết trước của tôi, tôi đã giới thiệu sự liên quan của việc giảm kích thước trong các vấn đề học tập máy và cách chế ngự lời nguyền của chiều , và tôi đã giải thích cả lý thuyết và thực hiện Scikit-learn của thuật toán phân tích thành phần chính .Theo dõi này, tôi sẽ đi sâu vào các thuật toán giảm kích thước bổ sung, như KPCA hoặc LLE , khắc phục những hạn chế của PCA.Đừng lo lắng nếu bạn chưa đọc Giới thiệu giảm kích thước của tôi. Bài đăng này là một hướng dẫn độc lập vì tôi sẽ trình bày chi tiết từng khái niệm theo các thuật ngữ đơn giản. Tuy nhiên, nếu bạn muốn biết thêm về PCA, tôi tích cực hướng dẫn này sẽ phục vụ mục tiêu của bạn:

gpt4o-mini

Have you ever felt overwhelmed by the large number of features when approaching a machine learning task?Most data scientists experience this overwhelming challenge daily. While adding features enriches the data, it often slows down the training process and makes detecting hidden patterns more difficult, leading to the famous curse of dimensionality (in) .Moreover, in high-dimensional space, surprising phenomena occur. To describe this concept with an analogy, think of the novel Flatland, where characters living in a flat (2-dimensional) world find themselves astonished when they encounter a 3-dimensional being. In a similar way, we struggle to understand that, in high-dimensional space, most points are exceptions and the distance between points is often greater than expected. All these phenomena, if not handled properly, can have dire consequences for our machine learning models.<figure><img src="https://pic2.feat.com/media/6929759623058/dimzou/reword/200/20231119_1B5CB9E_000004.jpg"/></figure>In this post, I will explain some advanced dimensionality reduction techniques used to mitigate this issue.In my previous article, I introduced the relevance of dimensionality reduction in machine learning problems and how to overcome the curse of dimensionality, and I explained both the theory and implementation in Scikit-learn of the principal component analysis algorithm.Following this, I will delve into additional dimensionality reduction algorithms, such as KPCA or LLE, which address the limitations of PCA.Don't worry if you haven't read my Introduction to Dimensionality Reduction. This post is a standalone guide as I will detail each concept in simple terms. However, if you want to know more about PCA, I actively recommend this guide to serve your purpose:

<h1>Learn how to effectively apply modern downsizing methods and enhance your machine learning models.</h1>

Advanced size reduction models are implemented simply.

<h1>Tìm hiểu cách áp dụng hiệu quả các phương pháp giảm kích thước hiện đại và tăng cường các mô hình học máy của bạn.</h1>

Các mô hình giảm kích thước nâng cao được thực hiện đơn giản

Tìm hiểu cách áp dụng hiệu quả các phương pháp giảm kích thước hiện đại và tăng cường các mô hình học máy của bạn.