« Home « Kết quả tìm kiếm

Nghiên cứu phương pháp mô hình hóa hành vi người dùng dựa trên dữ liệu web


Tóm tắt Xem thử

- Trần Trung Hiếu HỆ THỐNG THÔNG TIN NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA HÀNH VI NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU WEB LUẬN VĂN THẠC SĨ KHOA HỌC HỆ THỐNG THÔNG TIN CLC2017B Hà nội - 2018 2 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI.
- Trần Trung Hiếu NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA HÀNH VI NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU WEB Chuyên ngành : Hệ thống thông tin LUẬN VĂN THẠC SĨ KHOA HỌC HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : 1.
- Nguyễn Bình Minh Hà Nội - 2018 3 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ và tên tác giả luận văn : Trần Trung Hiếu Đề tài luận văn: Nghiên cứu phương pháp mô hình hóa hành vi người dùng dựa trên dữ liệu web Chuyên ngành: Hệ thống thông tin Mã số SV: CBC17019 Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày với các nội dung sau.
- Chỉnh sửa phần nêu rõ ưu điểm của việc sử dụng thuật toán Naïve Bayes trong việc phân loại dữ liệu text trong mục 2.2.4 huấn luyện, chương 2 mô hình hóa hành vi.
- Bổ sung tài liệu tham khảo chứng minh những ưu điểm việc lựa chọn thuật toán Naïve Bayes trong việc phân loại dữ liệu bình luận của người dùng.
- Tổng quan về hành vi người dùng.
- Yếu tố ảnh hưởng hành vi người dùng.
- Khai phá dữ liệu.
- Các phương pháp khai phá dữ liệu.
- Hành vi người dùng trong dữ liệu web.
- Lựa chọn dữ liệu.
- Tiền xử lý dữ liệu.
- Mô tả dữ liệu.
- Giới thiệu nguồn gốc dữ liệu.
- Cấu trúc dữ liệu.
- Phân bố dữ liệu.
- Số liệu sai số toàn bộ dữ liệu xếp hạng.
- Khai phá dữ liệu là một bước trong quá trình khai phá tri thức[11.
- Một số hành vi trong dữ liệu người dùng tương tác và phản hồi sản phẩm.
- Biểu diễn mỗi quan hệ giữa người dùng và sản phẩm.
- Tiền xử lý dữ liệu [3.
- Phương pháp binning cho việc làm mịn dữ liệu.
- Hành vi người dùng trong dữ liệu review của Amazon.
- Biểu diễn mỗi quan hệ giữa người dùng và sản phẩm trong bộ dữ liệu thử nghiệm.
- Mô tả số lượng review theo danh mục sau khi đã loại bỏ dữ liệu review cũ .
- Biểu đồ mô tả số lượng sản phẩm theo số click của người dùng.
- Thông thường những hành động của khách hàng tương tác với website sẽ được lưu trữ trên log của web server hoặc được lưu trữ trên cơ sở dữ liệu theo một trật tự là chuỗi các sự kiện tạo ra bởi người dùng(như click, view, comment.
- Dữ liệu được lưu trữ bởi những phương thức đó được gọi chung là dữ liệu web.
- Hành vi người dùng có trong dữ liệu web rất có giá trị cần phải được phát hiện và phân tích để cải thiện nội dung và cấu trúc các trang web nhằm điều chỉnh, cá nhân hóa nội dung, gợi ý sản phẩm hoặc để hiểu được sự quan tâm người dùng đến một sản phẩm cụ thể [1].
- 13 Các kỹ thuật khai phá dữ liệu hiện nay đã chứng tỏ được sự hữu ích đối với việc khai thác các dữ liệu web của người dùng.
- Mục tiêu chính là khám phá ra các mẫu dữ liệu để giải thích sở thích của người dùng.
- Các kỹ thuật khác nhau sử dụng khá thành công trong thương mại điện tử như kỹ thuật hồi quy, phân loại hay phân cụm… Những kỹ thuật như vậy là một phần của kinh doanh thông minh nhằm khai phá hành vi có trong các dữ liệu ẩn và những quan hệ ẩn trong một tập lớn dữ liệu người dùng.
- Tính linh hoạt này làm cho việc tạo ra một mô hình đại diện cho hành vi người dùng là một nhiệm vụ khó khăn.
- Khó khăn trong việc hiểu dữ liệu hành vi người dùng để đưa ra một mô hình phân tích gợi ý phù hợp có thể đề cập ở một số khía cạnh như.
- Vì vậy cần áp dụng các kỹ thuật để loại bỏ những dữ liệu gây nhiễu cho mô hình.
- Việc thu thập hành vi người dùng chưa hiệu quả dẫn đến việc gợi ý chưa thật sự chính xác.
- Tuy nhiên, hiện nay với việc phát triển các kỹ thuật khai phá dữ liệu, học máy và các kỹ thuật học sâu giúp các nhà nghiên cứu, các nhà phân tích đưa ra các mô hình gợi ý phù hợp hơn cho một số loại dữ liệu hành vi người dùng trong một phạm vi nhất định.
- Luận văn sẽ đi sâu nghiên cứu về lớp bài toán “mô hình hóa hành vi người dùng trên tập dữ liệu người dùng tương tác và phản hồi sản phẩm”.
- Thử nghiệm một bộ dữ liệu cụ thể với mô hình đề xuất cho ra kết quả là những gợi ý cho người dùng.
- Bằng phương pháp tiếp cận dữ liệu từ lúc thu thập dữ liệu hành vi tương tác và phản hồi sản phẩm của người dùng cho tới quá trình tiền xử lý dữ liệu để có dữ liệu ở mức có thể huấn luyện được và cuối cùng là dự báo và đưa ra kết quả là những gợi ý cho người dùng.
- Áp dụng nó cho bộ dữ liệu phản hồi của khách hàng về sản phẩm của Amazon.
- Điều này được thể hiện qua một số khái niệm về hành vi người dùng như: “Hành vi người dùng.
- Các yếu tố dưới đây có thể ảnh hưởng đến thái độ quyết định sử dụng sản phẩm hay dịch vụ của người dùng.
- Ngày nay với sự phát triển của khoa học công nghệ hành vi người dùng được xem xét và phân tích dưới góc nhìn của khoa học dữ liệu.
- Bằng việc thu thập và lưu trữ hành vi người dùng kết hợp các kỹ thuật khai phá dữ liệu để từ đó gợi ý cho người dùng những sản phẩm và dịch vụ phù hợp.
- Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80.
- Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn(các kho dữ liệu).
- Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu.
- 17 Ở một mức độ trừu tượng nhất định có thể định nghĩa: Khai phá dữ liệu (Data Mining) là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu lớn.
- Nhưng nếu phân chia một cách tách bạch khai phá dữ liệu là một bước trong quá trình khai phá tri thức.
- Quá trình khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) là lĩnh vực liên quan đến các ngành như: thống kê, học máy, cơ sở dữ liệu, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu năng cao.
- Lựa chọn: Bước này liên quan đến việc xác định hoặc trích xuất dữ liệu có liên quan để phân tích.
- Tiền xử lý: Bước này bao gồm việc chuẩn bị, làm sạch tập dữ liệu bằng cách giải quyết các vấn đề như thiếu dữ liệu, dữ liệu bị lệch, các trường không liên quan, loại bỏ các điểm bên ngoài, chuyển đổi định dạng.
- 18  Khai phá dữ liệu: Bước này liên quan đến việc áp dụng các thuật toán khai phá tri thức cho dữ liệu đã được làm sạch và chuyển đổi để trích xuất các mẫu có ý nghĩa từ dữ liệu đó.
- Như vậy khai phá dữ liệu là một bước quan trọng trong quá trình khai phá tri thức.
- Hiện nay có nhiều phương pháp cho việc khai phá dữ liệu.
- Phân loại là một trong những kỹ thuật khai phá dữ liệu hữu ích cho việc dự đoán thành phần trong dữ liệu thể hiện.
- Phân loại thuộc loại học máy giám sát trong đó có cung cấp nhãn dữ liệu trước.
- Bằng cách huấn luyện dữ liệu từ đó chúng ta có thể dự đoán dữ liệu trong tương lai.
- Việc dự đoán được thực hiện ở dạng đưa ra lớp mà dữ liệu đó thuộc về.
- Việc huấn luyện dựa trên dữ liệu mẫu được cung cấp.
- Trong phân loại giám sát đó là việc mapping giữa dữ liệu đầu vào thành tập hợp hữu hạn các nhãn lớp.
- Tập dữ liệu đầu vào X.
- Có nhiều phương pháp phân loại trong khai phá dữ liệu như cây quyết định, Naïve Bayes, Support Vector Machines, mạng Neural.
- Nó có thể dự đoán xác suất mà một bộ dữ liệu thuộc về một lớp cụ thể.
- Phân loại Naïve Bayes cho độ chính xác và tốc độ cao khi áp dụng với bộ dữ liệu lớn.
- D là bộ dữ liệu huấn luyện và các nhãn class liên quan của nó.
- Mỗi điểm dữ liệu được biểu diễn bởi vector thuộc tính n chiều, X.
- Cho điểm dữ liệu X, Phân loại sẽ dự đoán X thuộc về class có xác suất cao nhất có điều kiện trên X.
- Với điểm dữ liệu nhiều thuộc tính việc tính xác suất.
- từ bộ dữ liệu huấn luyện.
- Việc phân loại Naïve Bayes sẽ dự đoán rằng điểm dữ liệu X thuộc class.
- Ý tưởng của SVM là tìm ra một siêu phẳng để phân tách các điểm dữ liệu.
- Siêu phẳng này sẽ chia không gian thành các miền khác nhau và mỗi miền sẽ chứa một loại dữ liệu.
- Phân tích bài toán SVM Giả sử rằng các cặp dữ liệu huấn luyện là.
- thể hiện đầu vào của một điểm dữ liệu và.
- là nhãn của điểm dữ liệu đó.
- D là số chiều của dữ liệu và N là số điểm dữ liệu.
- Giả sử rằng nhãn của mỗi điểm dữ liệu được xác định bởi.
- Với cặp dữ liệu.
- Phân cụm là quá trình phân vùng một tập hợp các đối tượng dữ liệu thành tập con.
- Trong các trường hợp khác nhau các phương pháp phân cụm khác nhau có thể tạo ra các cụm khác nhau trên cùng một tập dữ liệu.
- Phân cụm hữu ích ở chỗ nó có thể phát hiện ra các nhóm chưa biết trước đó trong dữ liệu.
- Xác nhận: việc xác nhận các cụm có ý nghĩa liệu các nhóm được hình thành có hợp lệ hay không, dữ liệu có chính xác theo nhóm không.
- Giải thích kết quả: cung cấp độ chính xác cho người dùng.
- Phương pháp chia dữ liệu thành k nhóm sao cho mỗi nhóm chứa ít nhất một đối tượng.
- Nói cách khác, các phương pháp phân vùng tiến hành phân vùng một cấp trên các tập dữ liệu.
- Phương pháp phân cấp: tạo ra một sự phân rã phân cấp của dữ liệu đã cho.
- Hồi quy là một kỹ thuật khai phá dữ liệu khác dựa trên việc học có giám sát và được sử dụng để dự đoán liên tục.
- Kỹ thuật này bắt đầu với tập dữ liệu đã được biết.
- Điều này có thể được biểu diễn dưới dạng phản tuyến tính bằng cách xử lý trước dữ liệu.
- Từ các kỹ thuật được áp dụng trong khai phá dữ liệu kể trên sẽ cho ta những gợi ý được ứng dụng trong các hệ gợi ý để cung cấp cho người dùng thông tin hữu ích nhất.
- Trong hệ gợi ý không có ma trận Utility, gần như không thể gợi ý được sản phẩm tới người dùng.
- Nhờ người dùng rate sản phẩm.
- Khai phá đặc trưng của dữ liệu.
- Đối với loại dữ liệu hình ảnh thông thường để xác định thông tin đặc trưng của ảnh bằng cách mời người dùng nhập từ hoặc cụm từ mô tả để gắn thẻ vào các ảnh.
- Từ việc khai phá đặc trưng của dữ liệu dẫn đến mục tiêu cuối cùng của việc gợi ý dựa trên nội dung là tạo cả một profile items bao gồm tất cả các giá trị đặc trưng và profile của người dùng tóm tắt các tùy chọn của người dùng dựa trên utility matrix.
- Dữ liệu duy nhất chúng ta có là ma trận Utility Y.
- Các vector này được xây dựng trực tiếp dựa trên ma trận Utility chứ không dùng dữ liệu ngoài như item profiles.
- Bước tiếp theo là chuẩn hóa dữ liệu bằng cách trung bình cộng của các ratings mà user tương ứng đã thực hiện

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt