« Home « Kết quả tìm kiếm

Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng


Tóm tắt Xem thử

- Tuy nhiên, trong một số nhận xét của người dùng thường có chứa nhiều nội dung, và đa phần là dữ liệu đa nhãn đa thể hiện.
- Vì vậy, vấn đề trọng tâm của hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn đa thể hiện..
- Theo Zhou và cộng sự hướng tiếp cận để giải quyết bài toán phân lớp dữ liệu đa nhãn, đa thể hiện (MIML) là sử dụng phương pháp phân rã bài toán MIML thành những bài toán đơn giản.
- Từ đây luận văn đề xuất một mô hình phân lớp quan điểm người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM..
- Thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn ở Việt Nam ở website (http://chudu24.com.
- Kết quả phân lớp khi áp dụng phương pháp phân lớp thông thường SVM là 84.84% và kết quả khi áp dụng mô hình phân lớp quan điểm luận văn đề xuất là 85.76%.
- Kết quả trên cho thấy phương pháp xây dựng mô hình phân lớp quan điểm áp dụng MIMLSVM là có tính hiệu quả cao..
- Tôi xin cam đoan mô hình phân lớp quan điểm người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy..
- Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng.
- Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML.
- Phân lớp đa nhãn đa thể hiện.
- Pha 2: Phân lớp sử dụng mô hình huấn luyện.
- Xây dựng tập dữ liệu thử nghiệm.
- Hình 2.1: Dữ liệu đa nhãn đa thể hiện.
- Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân.
- Bảng 4.3 : Tập dữ liệu thực nghiệm.
- Bảng 4.4: Tập dữ liệu huấn luyện.
- Vì thế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa nhãn đa thể hiện.
- Luận văn đề xuất một mô hình phân lớp câu quan điểm trong bài toán quản lý danh tiếng sử dụng MIMLSVM và tiến hành thực nghiệm mô hình phân lớp với tập các nhận xét của người dùng về 1000 khách sạn ở Việt Nam và cho kết quả khả quan 85.76%..
- Sau đó, luận văn còn trình bày về tầm quan trọng của việc phân lớp dữ liệu đa nhãn, đa thể hiện trong hệ thống quản lý danh tiếng..
- Chương 2: Luận văn trình bày một cách tổng quan về học máy phân lớp MIML, các mô hình giải quyết như: MIMLSVM, MIMLBoost..
- Chương 3: Luận văn đề xuất mô hình phân lớp dữ liệu trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM.
- Theo [6], khai phá quan điểm hay còn gọi là phân lớp nhận định có ba bài toán điển hình là:.
- Phân lớp quan điểm.
- trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng tâm của quản lý danh tiếng..
- Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn đa thể hiện, có nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp với nhiều thể hiện khác nhau.
- Vì thế, vấn đề xử lý dữ liệu đa nhãn đa thể hiện là vấn đề mấu chốt của bài toán quản lý danh tiếng và luận văn đã sử dụng phương pháp phân lớp MIMLSVM để giải quyết vấn đề trên..
- Phân lớp dữ liệu đa nhãn đa thể hiện là nhiệm vụ phân loại tài liệu trong đó mỗi tài liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau và mỗi nhãn có nhiều thể hiện khác nhau.
- Dữ liệu đa nhãn đa thể hiện thường được gặp trong thực tế hơn dữ liệu đơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định.
- Xét một ví dụ về dữ liệu đa nhãn đa thể hiện như : một bức ảnh có chứa “sóng biển”, “thuyền”,.
- Do tầm quan trọng của dữ liệu đa nhãn đa thể hiện, bài toán phân lớp dữ liệu đa nhãn đa thể hiện đã được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triển của rất nhiều thuật toán phân lớp.
- Một trong số những phương pháp mở rộng để phân loại dữ liệu đa nhãn đa thể hiện điển hình như MIMLSVM, MIMLBoost, MIML Bayes….
- Theo những nghiên cứu gần đây có hai hướng tiếp cận để giải quyết bài toán phân lớp MIML.
- Luận văn lựa chọn hướng thứ nhất để giải quyết bài toán phân lớp trong quản lý danh tiếng..
- Ngoài ra, luận văn còn nêu lên được tầm quan trọng của bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong hệ thống quản lý danh tiếng.
- Chương tiếp theo, luận văn sẽ trình bày tổng quan về phân lớp MIML, các mô hình giải quyết như: MIMLSVM, MIMLBoost.
- Từ những tìm hiểu đó, luận văn đề xuất mô hình phân lớp dữ liệu đa nhãn đa thể hiện hiệu quả cho hệ thống quản lý danh tiếng..
- Chính vì sự phức tạp trong khái niệm cũng như trong thể hiện mà Zhi-Hua Zhou và cộng sự [2] đã đưa ra mô hình bốn khung học máy phân lớp phổ biến:.
- Bốn khung học máy phân lớp phổ biến [2].
- Hình (c) là mô tả cho học máy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) trong đó mỗi đối tượng được phân lớp vào nhiều lớp và nó chỉ có một thể hiện trong miền ứng dụng..
- Cuối cùng, hình (d) là học máy đa nhãn – đa thể hiện (multi-instance, multi-label learning: MIML) được Zhi-Hua Zhou và Min-Ling Zhang [2] công bố chính thức vào năm 2006 và đây là khung học máy phân lớp mới nhất trong bốn khung học máy phân lớp được đề cập.
- Trong học máy MIML, mỗi đối tượng thuộc vào nhiều lớp và nó cũng có nhiều thể hiện trong miền dữ liệu..
- Do mỗi đơn vị dữ liệu trong.
- Nói các khác z ui mã hóa một số thông tin cấu trúc của dữ liệu.
- Quá trình phân lớp cấu trúc được Zhou và Zhang [2].
- Bước 4: T ừ tập dữ liệu có thể học một hàm học đa nhãn f MLL có thể thực hiện được hàm MIML vì f MIML.
- Với mỗi y  У , thu được một tập dữ liệu D y.
- Do đó, bộ dữ liệu nguyên thủy MIML được chuyển thành bộ dữ liệu đa thể hiện chứa m.
- thể hiện..
- Từ tập dữ liệu học một hàm học đa thể hiện f MIL có thể thực hiện được hàm MIML mong muốn vì f MIL (X.
- 1, 1  là dự báo của phân lớp bậc thể hiện h.
- có thể được học bằng cách cực tiểu hóa lỗi phân lớp bậc thể hiện..
- 0,1 bằng cách đếm số thể hiện bị phân lớp nhầm trong túi.
- Trong chương này, luận văn giới thiệu tổng quan về phân lớp đa nhãn đa thể hiện và hai thuật toán MIMLSVM, MIMLBOOST do Zin-Hua Zhou và cộng sự [2] đề xuất để giải quyết bài toán phân lớp dữ liệu đa nhãn đa thể hiện..
- Chương tiếp theo, luận văn sẽ trình bày mô hình đề xuất từ việc áp dụng thuật toán MIMLSVM trong hệ thống phân lớp quan điểm người dùng áp dụng trong quản lý danh tiếng..
- Dựa trên kết quả khả quan của phương pháp phân lớp dữ liệu đa nhãn đa thể hiện MIMLSVM [2] và thuật toán nền SVM là thuật toán sử dụng không gian vector đặc trưng lớn (10.000 chiều) và phù hợp cho việc ứng dụng phân lớp văn bản, luận văn tiến hành áp dụng phương pháp này để phân lớp dữ liệu đa nhãn đa thể hiện.
- Trong giải pháp này, luận văn tiến hành thực nghiệm trên miền dữ liệu Tiếng việt bao gồm nhận xét của người dùng về 1000 khách sạn của Việt Nam..
- Phát biểu bài toán : Áp dụng phương pháp phân lớp dữ liệu đa nhãn đa thể hiện MIMLSVM trên miền dữ liệu Tiếng việt..
- Phân lớp sử dụng mô hình huấn luyện 3.2.
- Từ những nghiên cứu đã đề cập ở trên, luận văn đưa ra hệ thống phân lớp đa nhãn đa thể hiện cho dữ liệu Tiếng việt sử dụng MIMLSVM.
- Luận văn sử dụng các đặc trưng TF.IDF trong quá trình phân lớp dữ liệu đa nhãn đa thể hiện.
- Tập kết quả Dữ liệu kiểm tra Dữ lệu học.
- Phân cụm thể hiện.
- Áp dụng 5 bộ phân lớp nhị phân SVM.
- Mô hình phân lớp.
- Khi đó, luận văn thu được vector trọng số TF.IDF từ tập các từ khóa trong dữ liệu học là.
- Để chuyển đổi từ bài toán phân lớp dữ liệu đa nhãn đa thể hiện thành bài toán phân lớp đa nhãn đơn thể hiện, luận văn áp dụng quá trình phân lớp cấu trúc của Zin- Hua Zhou và cộng sự [2].
- Qua quá trình thực nghiệm, luận văn sử dụng số cụm 60 cho tập dữ liệu huấn luyện.
- Sau quá trình chuyển đổi từ MIML thành SIML, luận văn tiếp tục áp dụng phương pháp chuyển đổi nhị phân cho tập dữ liệu đa nhãn trên.
- Phương pháp nhị phân là phương pháp xây dựng |L| bộ phân lớp nhị phân.
- Dữ liệu trong mỗi bộ phân lớp được gán nhãn l 1 nếu nó thuộc lớp L 1 , các dữ liệu.
- Phương pháp này là phương pháp hiểu quả nhất để sử dụng bộ phân lớp nhị phân vào phân lớp đa nhãn.
- Hình 6, biểu diễn bốn tập dữ liệu kết quả thu được khi sử dụng phương pháp chuyển đổi nhị phân.
- Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân Áp dụng phương pháp chuyển đổi nhị phân trên đây cho việc phân lớp miền dữ liệu khách sạn ở 1000 khách sạn ở Việt Nam, luận văn tiến hành xây dựng tập các nhãn (lớp) trên lĩnh vực này như sau.
- Sự phục vụ của nhân viên : Dữ liệu thuộc lớp này bao gồm:.
- Vị trí và giá cả : Dữ liệu lớp này bao gồm.
- Dữ liệu thực nghiệm là dữ liệu về đánh giá của người dùng về 1000 khách sạn ở Việt Nam.
- Kết quả của dữ liệu sau pha 2, sẽ là tập nhận xét của người dùng được phân lớp vào 5 lớp tương ứng ở phần 3.3.3..
- Vector đặc trưng thu được sẽ được đưa vào bộ phân lớp thu được từ 3.3.3 và kết quả của bộ phân lớp sẽ là các lớp tương ứng mà dữ liệu được phân vào..
- Chương ba của luận văn trình bày về việc áp dụng MIMLSVM trong phân lớp dữ liệu đa nhãn đa thể hiên Tiếng việt.
- Thực nghiệm 1: Thực hiện việc phân lớp nhị phân thông thường cho dữ liệu đa nhãn đa thể hiện mà không qua pha chuyển đổi MIML thành SIML..
- Thực nghiệm 2: Thực hiện việc phân lớp sử dụng MIMLSVM với đủ các pha chuyển đổi MIML thành SIML và sau đó SIML thành SISL..
- 3 SVM NA Phân lớp dữ.
- Module Classifier.svm : Tiến hành phân lớp quan điểm..
- Luận văn thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng về 1000 khách sạn ở Việt Nam.
- Tập dữ liệu là 3700 câu.
- Trong đó, tập dữ liệu huấn luyện được gán nhãn bằng tay..
- Tập dữ liệu học 3200 câu.
- Tập dữ liệu kiểm tra 500 câu.
- Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình phân lớp và vector hóa dữ liệu..
- Xây dựng hàm phân lớp: Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng các xây dựng các bộ phân lớp nhị phân chuyển đổi..
- Luận văn tiến hành thực nghiệm trên tập dữ liệu như ở bảng 4.4.
- Luận văn chia dữ liệu kiểm tra thành 5 phần là Data1.
- Thực nghiệm 1: Thực hiện việc phân lớp nhị phân thông thường cho dữ liệu đa nhãn đa thể hiện..
- Thực nghiệm 2 : Phân lớp dữ liệu đa nhãn đa thể hiện sử dụng MIMLSVM Bảng 4.6: Kết quả độ chính xác của thực nghiệm 2.
- Qua quá trình tìm hiểu về bài toán quản lý danh tiếng, luận văn đã nêu bật nên được sức ảnh hưởng của việc phân lớp dữ liệu đa nhãn đa thể hiện.
- Từ đó, luận văn đã áp dụng mô phân lớp MIMLSVM đối với dữ liệu miền Tiếng Việt trong bài toán quản lý danh tiếng.
- Trình bày quản lý danh tiếng và tầm quan trọng của phân lớp dữ liệu đa nhãn đa thể hiện.
- Cài đặt mô hình và tiến hành thực nghiệm cho miền dữ liệu Tiếng Việt..
- Trong thời gian tới, chúng tôi sẽ tiếp tục mở rộng luận văn bằng cách sử dụng nhiều thuật toán phân lớp đa nhãn đa thể hiện theo hướng chuyển đổi MIML thành MISL và SISL, từ đó rút ra được thuật toán phù hợp nhất