« Home « Kết quả tìm kiếm

Nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ liệu Twitte


Tóm tắt Xem thử

- ĐINH KHÁNH LINH NGHIÊN CỨU KỸ THUẬT TÓM TẮT QUAN ĐIỂM TỪ DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI.
- Đinh Khánh Linh NGHIÊN CỨU KỸ THUẬT TÓM TẮT QUAN ĐIỂM TỪ DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS Lê Thanh Hƣơng Hà Nội - năm 2016 i MỤC LỤC Trang LỜI CẢM ƠN.
- 1 CHƢƠNG I: KHÁI QUÁT VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM TRÊN MẠNG XÃ HỘI TWITTER.
- Mạng xã hội Twitter.
- Mạng xã hội.
- Giới thiệu về mạng xã hội Twitter.
- Dữ liệu trên Twitter.
- Phát biểu bài toán.
- Bài toán tóm tắt quan điểm.
- Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter.
- Ý nghĩa của bài toán tóm tắt quan điểm về thực thể trên mạng xã hội.
- Tóm tắt chƣơng 1.
- 9 CHƢƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN.
- 10 2.1 Một số nghiên cứu liên quan.
- 10 2.2 Hệ thống phân lớp quan điểm.
- 11 2.2.1 Các đặc trƣng chủ yếu để phân lớp quan điểm.
- 11 ii 2.3 Bài toán phân loại và các thuật toán phân loại.
- 13 2.3.1 Thuật toán phân loại SVM.
- 19 2.4 Áp dụng độ tƣơng đồng cho bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter.
- 21 2.5 Tóm tắt chƣơng 2.
- 23 3.1 Mô hình giải quyết bài toán.
- 24 3.2.1 Crawl dữ liệu liên quan đến thực thể.
- 24 3.2.2 Xây dựng bộ dữ liệu training cho việc phân loại.
- 27 3.2.3 Tiền xử lý và chuẩn hóa dữ liệu.
- 28 3.2.4 Xây dựng bộ phân lớp tích cực - tiêu cực và áp dụng cho tập dữ liệu vừa đƣợc crawl và chuẩn hóa.
- 33 3.2.5 Áp dụng bộ phân loại dữ liệu học đƣợc cho dữ liệu chƣa đƣợc gán nhãn và trực quan hóa kết quả.
- 33 3.3 Tóm tắt chƣơng 3.
- 36 iii 4.3 Dữ liệu.
- 39 4.4.2 Kết quả phân loại.
- 43 4.5 Tóm tắt chƣơng 4.
- Em xin chân thành cảm ơn các thầy, cô trong trƣờng Đại học Bách Khoa đã tạo mọi điều kiện thuận lợi cho em học tập và nghiên cứu.
- Em xin chân thành cảm ơn! v LỜI CAM ĐOAN Tôi xin cam đoan phƣơng pháp nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ liệu Twitter và thực nghiệm đƣợc trình bày trong luận văn này là công trình nghiên cứu của bản thân đƣợc thực hiện dƣới sự hƣớng dẫn của PGS.TS Lê Thanh Hƣơng.
- Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn đƣợc thu thập trong quá trình nghiên cứu là trung thực chƣa từng đƣợc ai công bố trƣớc đây.
- Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo trong khóa luận.
- 36 Bảng 4: Thống kê cho dữ liệu SemEval.
- 38 Bảng 5: Thống kê cho dữ liệu Twitter140.
- 41 Bảng 8: Kết quả phân loại trên tập dữ liệu SemEval.
- 42 Bảng 9: Kết quả phân loại trên tập dữ liệu Twitter 140.
- 52 viii DANH MỤC HÌNH VẼ Hình 1: Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dƣơng và âm.
- 16 Hình 3: Mô hình đề xuất giải quyết bài toán phân tích quan điểm.
- 23 Hình 4: Kết quả phân loại cho tập dữ liệu SemEval.
- 42 Hình 5: Kết quả phân loại cho tập dữ liệu Twitter140.
- 43 1 LỜI MỞ ĐẦU Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các tổ chức, các nhân thu thập, tìm kiếm thông tin cũng nhƣ xử lý chúng và nhiều bài toán đƣợc đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội.
- Tóm tắt quan điểm là một trong những bài toán khai thác thông tin, giúp ngƣời dùng có thể có đƣợc những thông tin mong muốn về quan điểm.
- Tóm tắt quan điểm giúp ngƣời dùng tìm đƣợc những tài liệu quan điểm liên quan đến truy vấn.
- Tóm tắt quan điểm còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu hồi đƣợc.
- Với sự phát triển nhanh chóng cùng các API hỗ trợ, mạng xã hội Twitter đã trở thành một nguồn cung cấp nhiều thông tin quan điểm cho những ngƣời nghiên cứu về mạng xã hội.
- Đã có nhiều công trình nghiên cứu, chẳng hạn liên quan đến bài toán tóm tắt quan điểm theo các phƣơng pháp khác nhau từ nhiều nguồn dữ liệu.
- Nói riêng, nhiều công trình nghiên cứu về phân tích quan điểm trên Twitter đã đƣợc công bố .
- Thông qua tìm hiểu và phân tích các phƣơng pháp khai phá quan điểm trên các miền dữ liệu khác nhau luận văn tập trung nghiên cứu bài toán tóm tắt quan điểm trên mạng xã hội Twitter và đề xuất mô hình giải quyết bài toán.
- Nội dung của khoá luận đƣợc chia thành các chƣơng nhƣ sau: Chƣơng 1: Trình bày về bài toán tóm tắt quan điểm về thực thể trên mạng xã hội.
- Chƣơng này bắt đầu bằng việc giới thiệu về mạng xã hội, mạng xã hội Twitter với dữ liệu của nó.
- Sau đó bài toán tóm tắt quan điểm trên mạng xã hội đƣợc phát biểu.
- cùng với đó là những trình bày về ý nghĩa của bài toán cũng nhƣ các khó khăn thách thức trong việc giải quyết nó.
- Chƣơng 2: Trình bày tóm tắt khái quát các công trình nghiên cứu liên quan, 2 đồng thời trình bày những ƣu điểm, nhƣợc điểm của các phƣơng pháp nghiên cứu liên quan đó.
- Thuật toán SVM và thuật toán Naïve Bayes đƣợc sử dụng cho việc phân lớp quan điểm đƣợc giới thiệu.
- Tiếp đó, tác giả trình bày về một số độ đo và các thuộc tính có thể trích xuất của tweet.
- Chƣơng 3: Đƣa ra mô hình giải quyết bài toán tóm tắt quan điểm trên mạng xã hội Twitter.
- Tác giả cũng giới thiệu dữ liệu, từ điển đƣợc dùng cho bài toán.
- Chỉ ra những điểm cần khắc phục, đồng thời đƣa ra những hƣớng nghiên cứu trong thời gian sắp tới.
- 3 CHƢƠNG I: KHÁI QUÁT VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM TRÊN MẠNG XÃ HỘI TWITTER 1.1.
- Mạng xã hội Twitter 1.1.1.
- Mạng xã hội Mạng xã hội, hay còn gọi là mạng xã hội ảo (tiếng Anh: social network) là dịch vụ kết nối các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau, không phân biệt không gian và thời gian.
- Những ngƣời tham gia vào dịch vụ mạng xã hội còn đƣợc gọi là cƣ dân mạng.
- Dịch vụ mạng xã hội có những tính năng nhƣ chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog và xã luận.
- Các dịch vụ này có nhiều phƣơng cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ nhƣ tên trƣờng hoặc tên thành phố), dựa trên thông tin cá nhân (nhƣ địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (nhƣ thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm (nhƣ kinh doanh, mua bán…) Hiện nay thế giới có hàng trăm dịch vụ mạng xã hội khác nhau, với Twitter và Facebook nỏi tiếng nhất trong thị trƣờng Bắc Mỹ và Tây Âu, Orkut và Hi5 tại Nam Mỹ, Friendster tại châu Á và các đảo quốc Thái Bình Dƣơng.
- Dịch vụ mạng xã hội khác gặt hái đƣợc thành công đáng kể theo vùng miền nhƣ Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện nhiều các dịch vụ mạng xã hội nhƣ Zing Me… 1.1.2.
- Giới thiệu về mạng xã hội Twitter Ra đời vào ngày bởi Jack Dorsey và July, Twitter là dịch vụ mạng xã hội miễn phí cho phép ngƣời dùng sử dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, một dạng tiểu blog.
- Những mẩu tweet đƣợc giới hạn tối đa 140 ký tự đƣợc lan truyền nhanh chống trong phạm vi nhóm bạn của ngƣời nhắn hoặc có 4 thể đƣợc trƣng rộng rãi cho mọi ngƣời.
- Tính đến tháng 5 năm 2015, Twitter đã có hơn 550 triệu ngƣời dùng, trong đó có hơn 302 triệu ngƣời hoạt động thƣờng xuyên và trung bình trên mỗi ngƣời dùng có 208 ngƣời theo dõi.
- Trung bình có hơn 400 triệu tweet đƣợc tạo ra trên một ngày, 307 tweet trên một ngƣời dùng, mỗi tháng trung bình một ngƣời dùng 170 phút trên Twitter, có đến hơn 60% là sử dụng trên điện thoại.
- Dƣới đây là một số khái niệm trong Twitter.
- Twitter là 1 trang micro-blog và cũng là một mạng nhắn tin.
- Tweet là một đoạn văn (một SMS) của ngƣời dùng tạo ra.
- Mention (hoặc Reply) là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu.
- là hành động đánh dấu tên ngƣời dùng để trả lời hoặc đề cập đến ngƣời đó.
- Hashtag là một từ hoặc một cụm từ bắt đầu bằng ký hiệu.
- đƣợc gọi là biểu tƣợng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có thể đƣợc gắn thẻ bằng một hay nhiều từ.
- Hashtag cung cấp một phƣơng tiện của nhóm các tin nhắn nhƣ vậy, vì thế ta có thể tìm kiếm các hashtag và nhận đƣợc tập hợp các tin nhắn đó.
- Công cụ của Twitter rút gọn link nhƣng vẫn hiển thị tên miền đầy đủ để ngƣời dùng có thể biết họ bấm vào đƣờng link nào.
- Cơ chế kết nối Ở mạng xã hội Facebook ngƣời dùng đã quá quen thuộc với hình thức tƣơng tác hai chiều.
- Có nghĩa là một ngƣời kết bạn với bạn thì cần phải có sự xác nhận của 5 bạn.
- Còn cơ chế của mạng xã hội Twitter thì lại khác hoàn toàn là cơ chế một chiều.
- Sau khi một ngƣời follow bạn thì họ sẽ nhận đƣợc các thông tin mà bạn tweet trên đó, tweet cũng giống nhƣ hình thức cập nhật trạng thái của Facebook.
- Do đó, Twitter thƣờng đƣợc ƣa thích sử dụng bởi các doanh nghiệp, thƣơng hiệu, hay những ngôi sao nổi tiếng nhằm cập nhật những thông tin về mình cho những ngƣời quan tâm.
- Vì vậy, những diễn viên, ca sĩ, ngôi sao bóng đá… trên thế giới thƣờng sử dụng mạng xã hội này.
- Cơ chế cập nhật Có một điểm đặc biệt và khác với nhiều mạng xã hội khác ở Twitter chính là việc chỉ cho phép tweet với 140 ký tự.
- Đây cũng là một trong những lý do tại sao đa số ngƣời Việt Nam không thích mạng xã hội này.
- Thế nhƣng tại sao lại nhƣ vậy? Đó là vì nếu nhƣ bạn ở Mỹ và một số nƣớc mà Twitter phát triển, bạn có thể nhận đƣợc những cập nhật từ ngƣời mà bạn quan tâm thông qua tin nhắn SMS.
- Mặt khác, việc cập nhật một status với số lƣợng ký tự ít ỏi này cũng tạo nên một thói quen cho ngƣời dùng.
- 6 Đó cũng là một trong những lý do chính khiến cho Twitter không thể phát triển đƣợc ở Việt Nam.
- Ví dụ nhƣ bạn sắp đi Sài Gòn, bạn có thể tweet lên “Chuẩn bị đi Sài Gòn”.
- Những bạn bè thân của bạn sẽ nhận đƣợc thông điệp này một cách nhanh chóng và có thể sắp xếp để gặp bạn.
- Đối với các doanh nghiệp và ngƣời dùng: Các doanh nghiệp sẽ dễ dàng cung cấp thông tin đến với ngƣời tiêu dùng của họ thông qua việc tweet lên Twitter.
- Ngƣời dùng cũng dễ dàng nhận đƣợc các thông tin hỗ trợ và những chƣơng trình khuyến mãi, hay các thông tin về sản phẩm mới.
- Đối với các ngôi sao có nhiều fan hâm mộ: Các ngôi sao có thể cập nhật những gì mình đang làm, những chƣơng trình mà mình tham gia, các buổi biểu diễn… Các fan hâm mộ cũng có thể nhận đƣợc thông tin này một cách nhanh nhất trực tiếp từ chính thần tƣợng của họ.
- Qua đó, các bạn cũng thấy rằng không cần phải thông qua các báo đài, bạn vẫn có thể nhận đƣợc thông tin một cách nhanh nhất, trực tiếp từ ngƣời bạn cần theo dõi.
- Ngoài ra, Twitter còn có cơ chế retweet, tức là tweet lại thông tin từ ngƣời khác đã tweet.
- Đây cũng chính là một trong những điểm mạnh của Twitter, thông tin lan truyền một cách nhanh chóng.
- Dữ liệu trên Twitter Dữ liệu trên Twiteer chủ yếu là tiếng anh, dữ liệu mỗi tweet có độ dài tối đa là 140 ký tự

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt