« Home « Kết quả tìm kiếm

Kỹ thuật thu thập thông tin người dùng trên mạng.


Tóm tắt Xem thử

- Hƣớng tới một hệ tích hợp thông tin cá nhân .
- Biểu diễn ngƣời dùng .
- Hệ tích hợp thông tin cá nhân .
- Ánh xạ dữ liệu .
- Tích hợp dữ liệu vào đích CHƢƠNG 3: CÁC KỸ THUẬT GIẢI QUYẾT BÀI TOÁN .
- Chuyển đổi dữ liệu .
- Tải dữ liệu vào đích .
- Tính độ tƣơng quan giữa hai ngƣời dùng .
- Giải thuật xác định ngƣời dùng và giải quyết xung đột CHƢƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM Môi trƣờng cài đặt Chuẩn bị dữ liệu nguồn Xây dựng cấu hình cho hệ tích hợp Thử nghiệm và đánh giá CHƢƠNG 5: KẾT LUẬN Các kết quả đạt đƣợc Định hƣớng phát triển TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC THUẬT NGỮ Thuật ngữ tiếng Anh Nghĩa tiếng Việt Chú giải ETL (Extract – Transform – Load) Trích chọn – Chuyển đổi – Tải ETL là quá trình lấy, trích dữ liệu nguồn, kiểm tra, biến đổi dữ liệu để thực hiện việc lƣu trữ dữ liệu vào đích Source Nguồn Cơ sở dữ liệu nguồn Source Schema Lƣợc đồ nguồn Lƣợc đồ nguồn Des (Destination) Đích Cơ sở dữ liệu đích Target schema Lƣợc đồ đích Lƣợc đồ đích Extract Bóc tách Quá trình trích chọn dữ liệu Validate before transform Kiểm tra dữ liệu hợp lệ trƣớc khi chuyển đổi Kiểm tra tính hợp lệ của dữ liệu, loại bỏ dữ liệu thô trƣớc khi đƣa vào chuyển đổi Prepare before transform Chuẩn bị trƣớc khi chuyển đổi Chuẩn bị dữ liệu trƣớc khi đƣa vào chuyển đổi Transform Chuyển đổi dữ liệu Quá trình biến đổi dữ liệu Validate before load Kiểm tra dữ liệu hợp lệ trƣớc khi tải Kiểm tra tính hợp lệ của dữ liệu, loại bỏ dữ liệu thô trƣớc khi tải vào đích Prepare before load Chuẩn bị trƣớc khi Chuẩn bị dữ liệu trƣớc khi tải vào đích 4 tải dữ liệu Load Tải dữ liệu Tải dữ liệu vào đích DB (Database) Cơ sở dữ liệu Cơ sở dữ liệu Person DB Cơ sở dữ liệu ngƣời dùng Cơ sở dữ liệu ngƣời dùng MongoDB Cơ sở dữ liệu Mongo Cơ sở dữ liệu Mongo SK (Strong Key) Khóa mạnh Khóa có độ ảnh hƣởng mạnh nhất WK (Weak Key) Khóa yếu Khóa có độ ảnh hƣởng thấp hơn NF (Normal Field) Trƣờng bình thƣờng Trƣờng thông tin bình thƣờng Trusted-index Chỉ số tin tƣởng Đánh giá mức độ tin tƣởng của nguồn Weight Trọng số Mức độ quan trọng của trƣờng 5 DANH MỤC HÌNH VẼ Hình 1: Kiến trúc hệ tích hợp dữ liệu.
- 20 Hình 4: Luồng xác định ngƣời dùng.
- 34 Hình 5 - Cấu trúc dữ liệu thu thập từ Rồng Bay.
- 43 Hình 6 - Cấu trúc dữ liệu thu thập từ Vật Giá.
- 44 Hình 7 - Cấu trúc dữ liệu thu thập từ Én Bạc.
- 45 Hình 8 - Cấu trúc dữ liệu thu thập từ Violet.
- 46 Hình 9- Cấu trúc dữ liệu thu thập từ Tìm việc nhanh.
- 54 6 DANH MỤC BẢNG Bảng 1 - Kết quả chạy chƣơng trình khi không có xung đột dữ liệu.
- 53 Bảng 2 - Kết quả chạy chƣơng trình khi có xung đột dữ liệu.
- 58 Bảng 4 - Bảng trọng số các trƣờng dữ liệu.
- Trên các trang web cộng đồng đó, xuất hiện rất nhiều thông tin về cá nhân ngƣời dùng.
- Ngƣời dùng ở đây đƣợc hiểu là những ngƣời sử dụng hay tham gia vào các trang web đó.
- Ví dụ ngƣời dùng trên trang Rồng Bay (http://rongbay.com/) công khai một số thông tin nhƣ email, họ tên.
- Ngƣời dùng trên trang Vật Giá (http://www.vatgia.com.
- Mỗi trang có thể quan tâm đến một vài thông tin nào đó của ngƣời dùng, các thông tin của ngƣời dùng trên các trang có thể trùng lặp hoặc bổ sung cho nhau.
- Cho nên, nếu chúng ta có thể tổng hợp thông tin ngƣời dùng trên các trang này lại thì sẽ thu đƣợc thông tin đầy đủ hơn về ngƣời dùng.
- Với nhiều tổ chức, doanh nghiệp, nhu cầu thu thập thông tin cá nhân ngƣời dùng mạng xuất hiện ngày càng nhiều.
- Nhiều doanh nghiệp cần thu thập, tổng hợp thông tin ngƣời dùng mạng để phục vụ mục đích thƣơng mại cụ thể.
- Tuy nhiên, việc tìm kiếm đƣợc các thông tin phù hợp và có giá trị về ngƣời dùng mạng sẽ tốn kém thời gian do dữ liệu nằm phân tán trên mạng và không đƣợc sắp xếp, phân loại nhƣ mong muốn.
- Từ đó nảy sinh nhu cầu tích hợp, hợp nhất các dữ liệu này vào một nguồn chung chứa toàn bộ thông tin ngƣời dùng để tiện quản lý cũng nhƣ phục vụ cho các nhu cầu khai thác thông tin ngƣời dùng phát sinh hàng ngày.
- Tích hợp thông tin ngƣời dùng chính là việc kết hợp dữ liệu ngƣời dùng nằm ở nhiều nguồn khác nhau và cung cấp cho chúng ta cái nhìn tổng thể về thông tin cá nhân ngƣời dùng.
- Quá trình này càng trở nên khó khăn bởi dữ liệu ngƣời dùng trên các nguồn thƣờng không đồng nhất về cấu trúc cũng nhƣ giá trị.
- Thêm nữa, dữ liệu không phải lúc nào cũng sạch và đƣợc làm sạch nên ảnh hƣởng đến chất lƣợng của quá trình tích hợp.
- Sự phát triển của các nguồn dữ liệu cũng gây khó khăn khi tích hợp và lƣu trữ tại đích.
- Từ đó, bài toán đặt ra là làm thế nào để tích hợp dữ thông tin cá nhân ngƣời dùng vào trong một cơ sở dữ liệu duy nhất mang đầy đủ thông tin ngƣời dùng để từ đó có thể xây dựng các dịch vụ web cho phép kết xuất các dữ liệu thống kê.
- Mục đích của đề tài Mục đích của đề tài là tích hợp thông tin ngƣời dùng đƣợc trích rút từ các trang web cộng đồng vào một cơ sở dữ liệu ngƣời dùng chung.
- Thông tin đã đƣợc trích rút từ các nguồn trên web, lƣu vào các cơ sở dữ liệu nguồn, và nhiệm vụ của đề tài là tích hợp các cơ sở dữ liệu nguồn này vào một cơ sở dữ liệu chung mang đầy đủ thông tin về ngƣời dùng nhất.
- Vì vậy cơ sở dữ liệu chung phải linh hoạt trong lƣu trữ và có khả năng thêm các thuộc tính.
- Bố cục luận văn Phần tiếp theo của luận văn đƣợc tổ chức nhƣ sau: Chƣơng 2: Tổng quan về hệ tích hợp thông tin cá nhân Chƣơng này trình bày sơ lƣợc lý thuyết tích hợp dữ liệu và tổng quan về ETL.
- Chƣơng 4: Cài đặt và thử nghiệm Chƣơng này trình bày chi tiết cách cài đặt hệ thống, các bƣớc xây dựng công cụ tích hợp dữ liệu.
- 10 CHƢƠNG 2: TỔNG QUAN VỀ HỆ TÍCH HỢP THÔNG TIN CÁ NHÂN Tích hợp dữ liệu là việc kết hợp dữ liệu từ nhiều nguồn khác nhau và cung cấp cho ngƣời dùng cái nhìn thống nhất về dữ liệu.
- Hai hƣớng tiếp cận độc lập đƣợc biết đến trong hệ tích hợp dữ liệu là khung nhìn ảo (virtual) và kho dữ liệu (materialized).
- Trong cách tiếp cận khung nhìn ảo, hệ tích hợp dữ liệu truy cập đến nguồn mỗi khi một truy vấn đƣợc thực hiện.
- Nó hoạt động nhƣ một giao diện giữa ngƣời sử dụng và các nguồn để có một sự biểu diễn ảo của nội dung của dữ liệu bên dƣới tại các nguồn.
- Trong khi đó, theo cách tiếp cận kho dữ liệu, dữ liệu các nguồn đƣợc tổng hợp tại một nơi gọi là kho dữ liệu, truy vấn đƣợc thực hiện mà không cần truy cập vào các cơ sở dữ liệu nguồn.
- Theo yêu cầu của bài toán đặt ra, cách tiếp cận kho dữ liệu là phù hợp hơn.
- Phƣơng pháp phổ biến trong các hệ thống xử lý về tích hợp dữ liệu theo cách tiếp cận kho dữ liệu đó là ETL.
- Kiến trúc ETL ETL (viết tắt của Extract – Transform – Load) là quá trình lấy, trích dữ liệu nguồn, kiểm tra, biến đổi dữ liệu để thực hiện việc lƣu trữ dữ liệu vào đích [4].
- Dƣới đây là kiến trúc ETL tổng quát: 11 Hình 1: Kiến trúc hệ tích hợp dữ liệu Hình 1 trình bày các thành phần cơ bản của một hệ tích hợp dữ liệu, trong đó.
- Source (Nguồn): Các cơ sở dữ liệu cục bộ.
- ETL (Extract - Transform – Load / Trích chọn – Chuyển đổi – Tải): Thực hiện kết nối tới nguồn, đọc dữ liệu và chuyển đổi dữ liệu và tải dữ liệu vào đích.
- DQ (Data Quality / Chất lƣợng dữ liệu): Bộ kiểm tra chất lƣợng dữ liệu.
- Destination (Đích): Cơ sở dữ liệu đích.
- Control + Audit (Điều khiển + Kiểm soát): Bộ điều khiển và kiểm soát dữ liệu.
- Metadata (Siêu dữ liệu): Bộ huấn luyện dữ liệu.
- Dữ liệu từ các nguồn khác nhau đƣợc trích chọn, biến đổi và lƣu tạm thời vào các bảng tạm qua quá trình ETL.
- Sau đó, dữ liệu đƣợc đƣa vào bộ kiểm tra chất lƣợng dữ liệu.
- Dữ liệu đạt tiêu chuẩn sẽ đƣợc đƣa vào đích.
- Dữ liệu không đạt tiêu chuẩn sẽ đƣợc đẩy vào cơ sở dữ liệu của Bộ kiểm tra chất lƣợng để đƣợc ghi nhận xử lý và sau đó chuẩn hóa tại nguồn.
- Dữ liệu này cũng có thể đƣợc tự động chuẩn hóa hoặc đƣợc cho phép 12 trong một giới hạn chấp nhận nào đó.
- Trong quá trình ETL, dữ liệu đƣợc kiểm soát bởi bộ Điều khiển + Kiểm soát dựa trên các kết luận, các luật và đƣợc lƣu trữ logic trong metadata.
- Metadata là cơ sở dữ liệu chứa thông tin về cấu trúc dữ liệu, ý nghĩa của dữ liệu, sử dụng dữ liệu, các luật kiểm tra chất lƣợng dữ liệu và các thông tin khác về dữ liệu.
- Quá trình tích hợp bao gồm 3 bƣớc đó là: trích chọn dữ liệu (Extract), chuyển đổi dữ liệu (Transform) và tải dữ liệu (Load).
- Mục đích của trích chọn là khai thác, thu thập hoặc trích xuất dữ liệu từ những nguồn dữ liệu.
- Độ phức tạp của dữ liệu nguồn cũng nhƣ sự phong phú, đa dạng về dữ liệu muốn thu thập sẽ ảnh hƣởng trực tiếp tới độ phức tạp của quá trình trích chọn dữ liệu.
- Dữ liệu nguồn đƣợc lƣu trữ dƣới các định dạng khác nhau tùy vào mục đích, cách thức sử dụng tại mỗi nguồn.
- Đây là lý do vì sao chúng ta phải chuyển đổi dữ liệu thu thập đƣợc sang một định dạng thích hợp và đồng nhất trƣớc khi thực hiện tải vào cơ sở dữ liệu đích.
- Để chuyển đổi dữ liệu cần phải thực hiện ánh xạ dữ liệu giữa nguồn và đích.
- Đồng thời bƣớc này cũng thực hiện làm sạch, loại bỏ các bản ghi lỗi để chuẩn bị dữ liệu cho bƣớc tải dữ liệu sau đó.
- Các bản ghi lỗi thƣờng xuất hiện trong các trƣờng hợp cơ sở dữ liệu nguồn thiếu những trƣờng cần thiết mà cơ sở dữ liệu đích yêu cầu, hoặc các bản ghi từ dữ liệu nguồn không đủ thông tin.
- Số lƣợng thao tác chuyển đổi phụ thuộc vào định dạng dữ liệu nguồn và dữ liệu đích.
- Bƣớc này liên quan đến việc tải dữ liệu đã qua trích chọn và chuyển đổi vào một cơ sở dữ liệu đích.
- Trong hệ tích hợp dữ liệu, một vấn đề nổi lên đó là cần phải phân tích định dạng dữ liệu để đƣa ra cách biểu diễn dữ liệu ở đích một cách hợp lý.
- Biểu diễn dữ liệu đích ảnh hƣởng đến việc lƣu trữ cũng nhƣ quá trình chuyển đổi và tải dữ liệu.
- Hướng tới một hệ tích hợp thông tin cá nhân 2.2.1.
- Biểu diễn người dùng Do bài toán của ta là tích hợp dữ liệu ngƣời dùng từ nhiều nguồn vào một cơ sở dữ liệu chung gọi là dữ liệu đích, cho nên việc phân tích để biểu diễn dữ liệu đích về một định dạng chung là rất quan trọng, cần thiết phải làm.
- Dữ liệu ở đây đƣợc hiểu là thông tin cá nhân của ngƣời dùng.
- Nếu thông tin ngƣời dùng trên hai nguồn có cùng một số chứng minh thƣ thì nhất định đó là hai thể hiện của cùng một ngƣời (giả thiết dữ liệu có tính nhất quán, không có thay đổi về dữ liệu nhƣ trong trƣờng hợp cấp đổi số chứng minh thƣ hoặc số hộ chiếu khác).
- Từ một địa chỉ email cũng có thể nhận biết ra một ngƣời dùng nhƣng một ngƣời lại có thể có nhiều email khác nhau.
- Do đó, từ hai email khác nhau thì chƣa đủ cơ sở để đoán nhận đó là một hay hai ngƣời dùng.
- Do đó, biểu diễn và phân loại dữ liệu là hết sức quan trọng, ảnh hƣởng lớn đến bài toán đặt ra.
- Biểu diễn dữ liệu bao gồm việc xác định tiêu chuẩn cho dữ liệu để định ra các thuộc tính cần có cũng nhƣ tính chất, vai trò, vị trí của nó trong cơ sở dữ liệu đích.
- Dữ liệu của ngƣời dùng ở cơ sở dữ liệu đích sẽ đƣợc chia nhỏ thành các thuộc tính (hay trƣờng dữ liệu) khác nhau với một quy chuẩn riêng xác định dựa trên tính duy nhất của giá trị thuộc tính đối với ngƣời dùng.
- Dữ liệu đƣợc sắp xếp, phân loại theo từng nhóm thể hiện mức độ phân biệt ngƣời dùng.
- Độ "mạnh" của dữ liệu càng lớn, khả năng phân biệt ngƣời dùng càng cao.
- Từ đó, tập thuộc tính của một ngƣời dùng chia làm 3 loại.
- NF là trƣờng bình thƣờng, không có vai trò trong việc xác định cho một ngƣời dùng.
- Trong trƣờng hợp sử dụng dữ liệu trong tập SK để phân biệt ngƣời dùng với nhau, thì mỗi ngƣời dùng sẽ có một giá trị nhất quán đối với thuộc tính trong tập SK.
- Trong khi một giá trị của thuộc tính thuộc tập SK có thể phân biệt một ngƣời dùng xác định, thì đối với các thuộc tính thuộc tập WK, mức độ phân biệt ngƣời dùng là yếu hơn.
- NF là các thuộc tính thông thƣờng mà ngƣời dùng nào cũng có thể nhận giá trị đó.
- NF sẽ bao gồm các trƣờng chứa các thông tin mang tính tổng quát riêng cho ngƣời dùng, do đó mức độ phân biệt ngƣời dùng của NF là rất thấp.
- Chúng ta đã sử dụng các thuộc tính trong các tập dữ liệu nói trên để đánh giá mức độ phân biệt ngƣời dùng từ những giá trị của nó, vậy cũng cần có một giá trị để biểu diễn mức độ đó của các thuộc tính.
- Trọng số w càng lớn, thì độ phân biệt ngƣời dùng của thuộc tính đó càng cao.
- Và ngƣợc lại, nếu trọng số w nhỏ, thì ta khó có thể xác định đƣợc một ngƣời dùng cụ thể từ giá trị của một thuộc tính.
- Thông thƣờng với trọng số w nhỏ, ta sẽ thu đƣợc một tập gồm nhiều ngƣời dùng có chung giá trị của thuộc tính đó.
- Tƣơng tự nhƣ vậy, chúng ta cũng cần có thêm một chỉ số nhằm đánh giá mức độ tin tƣởng của vào độ chính xác của dữ liệu trên website đó so với dữ liệu thực tế của ngƣời dùng.
- Ví dụ 16 nhƣ nếu thông tin kết quả học tập của một khóa học trong nhà trƣờng sẽ bao gồm các dữ liệu gần nhƣ chính xác tuyệt đối, hơn so là với thông tin của ngƣời dùng tự khai báo trên các trang mạng xã hội.
- Mặt khác, khi mức độ tin tƣởng của hai nguồn là nhƣ nhau, thời gian lƣu trữ (time) cũng ảnh hƣởng tới việc tải dữ liệu.
- Dữ liệu mới hơn sẽ đƣợc ƣu tiên cao hơn.
- Từ đặc tính của dữ liệu nhƣ trên, dựng lên cấu trúc của cơ sở dữ liệu đích: Person = {SK1, SK2…SKn, WK1, WK2…WKm, NF1, NF2…NFk.
- wi: trọng số của trƣờng dữ liệu, đại diện cho độ “mạnh” của khả năng phân biệt ngƣời dùng.
- timei: thời gian I xuất hiện trong nguồn, cho biết mức độ cập nhật của dữ liệu đang lƣu trữ

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt