Academia.eduAcademia.edu
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ Phan Quốc Nghĩa1, Nguyễn Minh Kỳ2, Nguyễn Tấn Hoàng3, Huỳnh Xuân Hiệp4,5 1 Phòng Khảo thí, Trường Đại học Trà Vinh 2 Khoa Công nghệ Thông tin, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ 3 Trung tâm Tin học tỉnh Đồng Tháp 4 Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ 5 Nhóm nghiên cứu liên ngành DREAM-CTU/IRD, Trường Đại học Cần Thơ nghiatvnt@tvu.edu.vn, nmky@ctuet.edu.vn, hoangntdt@gmail.com, hxhiep@ctu.edu.vn TÓM TẮT - Trong bài viết này chúng tôi đề xuất một tiếp cận mới nhằm hỗ trợ tư vấn cho thí sinh trung học phổ thông xác định nghề nghiệp phù hợp sẽ làm trong tương lai dựa trên tiếp cận về hệ tư vấn (recommender system). Mô hình hệ tư vấn được xây dựng trên cơ sở phương pháp hàm ý thống kê (statistical implication). Khác với các hệ tư vấn truyền thống chủ yếu tập trung về tính chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu tiên giữa người dùng và mục dữ liệu, trong mô hình này chúng tôi đặc biệt quan tâm đến tỷ lệ hay mối quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể. Thông qua thực nghiệm trên hai tập dữ liệu cho thấy rằng mô hình mà chúng tôi đề xuất đưa ra kết quả khuyến nghị khá hữu ích. Từ khóa - Độ đo hấp dẫn, hàm ý thống kê, định hướng nghề nghiệp, tuyển sinh, hệ tư vấn. I. GIỚI THIỆU Hệ tư vấn [9][10][14][7] trở thành lĩnh vực nghiên cứu quan trọng từ khi bắt đầu xuất hiện bài báo đầu tiên về phương pháp lọc cộng tác [11][33][21][32] vào giữa thập niên 1990 của thế kỷ XX. Trong gần hai mươi năm qua, các nghiên cứu về hệ tư vấn đã có được những thành tựu đáng kể trong việc ứng dụng vào cuộc sống cũng như phục vụ nghiên cứu. Hệ tư vấn được hình thành trên cơ sở xác định hay tư vấn một cách có ý nghĩa cho một nhóm người dùng (users) đối với các mục dữ liệu (items) hay sản phẩm (product) mà họ cần quan tâm trên cơ sở xếp hạng các mục dữ liệu theo thứ tự ưu tiên. Các tiếp cận thông dụng được hình thành trên cơ sở nội dung (content-based) [9], lọc cộng tác (collaborative filtering) [9][5] hoặc phối hợp cả hai tiếp cận trên tạo thành tiếp cận hỗn hợp (hybrid) [10][9]. Hiện tại, sự quan tâm nghiên cứu về hệ tư vấn đang được nhiều nhà nghiên cứu quan tâm như: nghiên cứu tìm ra các thuật toán mới để cải thiện độ chính xác của các mô hình hệ tư vấn đã được đề xuất, nghiên cứu cải tiến các hệ thống để thích ứng với vấn đề bùng nổ thông tin và nghiên cứu để đề xuất các mô hình hệ tư vấn mới. Kết quả nghiên cứu về hệ tư vấn trong thời gian qua khá đa dạng như các nghiên cứu để ứng dụng các thuật toán nhằm cải tiến độ tin cậy của các mô hình [14][18][36][23][15][4], các nghiên cứu đánh giá mô hình và thuật toán của hệ tư vấn [13][1][28] nghiên cứu phân rã ma trận (matrix factorization) sự tồn tại giá trị giữa người dùng và mục dữ liệu cần quan tâm mang tính chất dự báo sự ưu tiên [37], một số tiếp cận khác quan tâm về tính hành động của mục dữ liệu (actionable) kết hợp với luật kết hợp để tư vấn cho người dùng [28] hay tiếp cận với trừu tượng hóa và luật kết hợp [30][30]. Tuy nhiên, các thế hệ hiện tại của hệ tư vấn vẫn cần cải tiến hơn nữa để có được các phương pháp khuyến nghị hiệu quả hơn và áp dụng với một phạm vi rộng hơn cho các ứng dụng thực tế cuộc sống. Trong bài báo này, chúng tôi tiếp tục phát triển ý tưởng xây dựng hệ tư vấn dựa trên phân tích hàm ý thống kê [26], mô hình hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê nhằm khắc phục nhược điểm của các hệ thống tư vấn truyền thống là chủ yếu tập trung về tính chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu tiên giữa người dùng và mục dữ liệu hay sản phẩm. Trong mô hình này chúng tôi đặc biệt quan tâm đến tỷ lệ hay mối quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể để đưa ra các khuyến nghị cho người dùng hiệu quả hơn. Bài viết này được tổ chức thành 6 phần. Phần I giới thiệu chung về hệ tư vấn và nêu vấn đề nghiên cứu. Phần II giới thiệu các mô hình thông dụng của hệ tư vấn và các nghiên cứu có liên quan. Phần III trình bày về độ đo hàm ý thống kê và công thức tính giá trị hấp dẫn dựa trên 4 tham số của hai độ đo hàm ý thống kê. Phần IV mô tả cách xây mô hình hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê. Phần V trình bày kết quả thực nghiệm của mô hình. Phần cuối cùng tóm tắt một số kết quả quan trọng đã đạt được. II. HỆ TƯ VẤN Bài toán tư vấn được coi là bài toán ước lượng trước hạng [9] (rating) của các mục dữ liệu hay các sản phẩm chưa được người dùng xem xét. Việc ước lượng này thường được dựa trên những đánh giá đã có của chính người dùng đó hoặc những người dùng khác. Những mục dữ liệu hay sản phẩm có hạng cao nhất sẽ được dùng để tư vấn. Một cách hình thức, bài toán tư vấn được mô tả như sau: Gọi C là tập tất cả người dùng, S là tập tất cả các mục dữ liệu hay sản phẩm có thể tư vấn. Tập S có giá trị trong khoảng {1, n}, tập C có giá trị trong khoảng {1, m}. Hàm u(c, s) đo độ phù hợp (hay hạng) của mục dữ liệu hay sản phẩm s với người dùng c: : × → với R là tập được sắp thứ tự. Với mỗi người dùng ∈ , cần tìm sản phẩm ′ ∈ sao cho hàm u(s’, c) đạt giá trị lớn nhất [9]: 298 2 HỆ TƯ VẤN D DỰA TRÊN TIẾP P CẬN HÀM Ý THỐNG T KÊ ∀ ∈ , arg ∈ , Trong hệ h tư vấn, độ pphù hợp của m một mục dữ liiệu hay sản ph hẩm thường đư ược cho bằngg điểm, ví dụ người n dùng A đánh giá bộ phim “Star w war 3” là mức 7 điểm trên 10 0 điểm. Tuy nh hiên, cách đo độ phù hợp trrong các hệ th hống tư vấn có c thể là một hàm bất kỳ tùùy thuộc vào lĩnh vực ứng dụng cụ thể. Giá trị của hààm u có thể đđược xác định bởi người dùng d hoặc đượ ợc tính toán bbởi công thứcc nào đó. Mỗii người dùng trong không ggian C được xác định bởi một hồ sơ người n dùng [8] (User profilee). Hồ sơ ngư ười dùng này có c thể gồm rấtt nhiều loại thhông tin: tên, ttuổi, giới tính, thu nhập, v.v. v hoặc có thhể chỉ gồm m một trường mãã số người dù ùng (user id) duy nhất. Tư ương tự như thhế, mỗi sản phẩm p trong không k gian S cũng c được xácc định bởi mộtt tập các đặc trưng. t Ví dụ, trong t hệ thốngg tư vấn ngànhh học, đặc trưn ng của mỗi ngành n có thể làà: tên ngành, yyêu cầu kiến tthức, yêu cầu năng n lực, yêu cầu kỹ năng, v.v. Vấn đề chính của hệ tư vấn là hàm m u không đượ ợc xác định trêên toàn khôngg gian × m mà chỉ trên một miền nhỏ của c không giann đó [9]. Điềuu này dẫn tới vviệc hàm u phảải được ngoại suy trong khôông gian × . Thông thườ ờng, độ phù hợp h được thể hiện h bằng điểm m và chỉ xác đđịnh trên tập các c mục dữ liệệu hay sản phẩẩm đã từng đư ược người dùn ng đánh giá từ ừ trước thườnng rất nhỏ. Cóó rất nhiều cácch để dự đoán n, ước lượng hạng h hoặc điểm m cho các mụục dữ liệu hay y sản phẩm như n sử dụng học h máy, lý thuuyết xấp xỉ, các thuật toán dựa trên kinh nghiệm… C Các hệ thống tư ư vấn thường được phân th hành ba loại dựa d trên cách nnó dùng để ướ ớc lượng hạng g hoặc điểm củ ủa mục dữ liệuu hay sản phẩm m: Phươngg pháp tư vấn dựa trên nội dung (Conten nt-based recom mmendations) , độ phù hợp ( , ) của mục m dữ liệu hay h sản phẩm s với người dùùng c được đáánh giá dựa trêên độ phù hợp p ( , ), trongg đó si ϵ S và “tương tự” nh hư s [9]. Ví dụ, d để gợi ý một m bộ phim chho người dùngg c, hệ thống tư vấn sẽ tìm các đặc điểm của những bộộ phim từng đư ược c đánh giá g cao (như diễn d viên, đạo diễn…), sau đđó chỉ những bộ b phim tương g đồng với sở thích của c m mới được giới thiệu. t Phươngg pháp tư vấn dựa trên cộngg tác (Collabo orative recomm mendations), kkhông giống nnhư phương pháp tư vấn dựa d trên nội duung, dự đoán độ phù hợp uu(c, s) của một mục dữ liệu u hay sản phẩm m s với ngườii dùng c dựa trên độ phù hợp h u(cj, s) giữ ữa người dùngg cj và s, tronng đó cj là ngư ười có cùng sở ở thích với c [9][21]. Ví dụụ, để gợi ý mộ ột bộ phim cho c người dùnng c, đầu tiên hệ thống cộnng tác tìm nhữ ững người dùn ng khác có cùùng sở thích pphim ảnh với c. Sau đó, những n bộ phim m được họ đánnh giá cao sẽ được dùng để tư vấn cho c. c Hệ thống c ộng tác có thểể chia thành hai h loại: hệ th hống dựa trênn kinh nghiệm (heuristic-bassed hay memo ory-based) và hệ thống dựa trên mô hình (model-based d). Phươngg pháp lai ghéép (Hybrid appproaches), mộ ột vài hệ tư vấn n kết hợp cả pphương pháp cộng tác và dự ựa trên nội dung d nhằm tráánh những hạnn chế của cả haai phương phááp trên. III. ĐỘ ĐO HÀM Ý THỐ ỐNG KÊ Hàm ý thống kê (stattistical implicaation) [27][24 4] nghiên cứu mối quan hệ hhàm ý giữa cáác biến dữ liệu u (variable) hay h thuộc tínhh dữ liệu, cho pphép phát hiệnn các luật (rulles) A → B kh hông đối xứng theo dạng “nnếu A sau đó gần g như B” hoặc h “xem xétt đến mức độ nnào mà B sẽ đđáp ứng hàm ý của A”. Hìn nh 1. Mô hình biểu b diễn luật hàm h ý thống kê A → B Chọn ngẫuu nhiên và độc lập hai tập ccon nào đó X và v Y của E (kh hông có mối qquan hệ nào g iữa X và Y, X ∩ Y ∅), đồng đ thời cũngg chọn tương ttự hai tập conn A và B. Cho Y và B tương ứng là phần bbù của Y và B trong E và có ó cùng bản số s n n n . Khi đó luậtt hàm ý A → B sẽ được chấp p nhận ở mức tin cậy 1 α nếu và chỉ nếếu [24]: Pr card X ∩ Y card A ∩ B α Và biếnn card X ∩ Y tuân theo luậật phân phối Poisson P với thaam số gọn g và tập trunng biến Poissoon này thành bbiến [24]: ard X ∩ Y ca Q A, B .T Trong trường hhợp n 0, ta a có thể rút Trong thực t tế thực nnghiệm, giá trịị quan sát đượ ợc của Q A, B là q A, B . C Chỉ số hàm ý ((implicative in ndex) được xác x định như sau s [24]: Phan P Quốc Nghĩa, Nguyễn Minh K Kỳ, Nguyễn Tấn H Hoàng, Huỳnh Xu uân Hiệp q A, B 299 n sẽ có giá ttrị xấp xỉ theo Trong trường t hợp xấấp xỉ phù hợpp (chẳng hạn như n 4), 4 biến Q A, o luật phân phối p chuẩn rútt gọn. Chỉ số m mật độ hàm ý (implication intensity) i với n n và n n được đđịnh nghĩa trên n cơ sở chỉ số s q A, B là [224]: φ A, B 1 q A, B Pr Q A, B Luật hààm ý A → B đư ược chấp nhậnn ở mức tin cậậy 1 1 √2π , e α nếu và v chỉ nếu φ A A, B dt 1 α [24]. IV. HỆ Ệ TƯ VẤN T THEO HƯỚN NG TIẾP CẬN N LUẬT KẾT T HỢP VÀ Đ ĐỘ ĐO HÀM M Ý THỐNG KẾ K Giả sử rằng chúng taa có một tập hhợp n người dùng d C = {c1, c2, …, cn} trrong một hệ thhống bất kỳ. Mỗi người dùng d được môô tả bằng mộtt hồ sơ người dùng [8] bao gồm tập hợp p các thuộc tínnh V = {v1, v 2, …, vm}, tro ong đó các th huộc tính từ v1 đến vk là thuuộc tính điều kkiện, các thuộ ộc tính từ vk+1 đến vm là các thuộc tính quuyết định. Trên n cơ sở hai tập hợp C và V chúng tôi xâây dựng mô hìình hệ tư vấn dựa d trên luật kết k hợp và độ đo hàm ý thốnng kê như sau: Các thuộc tính h điều v1 Tập hợ ợp nggười dùùng v2 … vk Các C thuộctính quyếttđịnh vk+1 … vm c1 c2 c3 . . . cn Hình 2. Môô hình hệ tư vấn dựa d trên luật kết hợp h và độ đo hàm m ý thống kê Trong mô m hình chúngg tôi xây dựngg giải thuật xử ử lý của hệ thố ống tư vấn gồm m các bước saau: Giải th huật cho mô h hình hệ tư vấn n dựa trên luật kết hợp và à độ đo hàm ý thống kê Inputt: Tập dữ liệuu mô tả hồ sơ người dùng gồm g n đối tượ ợng C = {c1, c 2, …, cn}, mỗỗi đối tượng được đ mô tả bằng m thuộc tính V = {v1, v2, … …, vm}, trong đó các thuộc tính từ v1 đếnn vk là thuộc ttính điều kiện, các thuộc ừ vk+1 đến vm là các thuộc tíính quyết định h. tính từ Outp put: Bảng tínhh giá trị hấp dẫẫn cho từng luật kết hợp đượ ợc sắp xếp dựaa trên hai độ đđo hàm ý thốn ng kê. Begin n 1 Xử lý tập d 1: dữ liệu thô Chọn tập ccác thuộc tínhh theo cầu của hệ thống; For i=1 too n Chọnn các dòng dữ liệu tương ứn ng với tập thuộ ộc tính; 0 Sinh tập lu 02: uật và lựa ch họn các luật ch ho hệ tư vấn Sinh tập luuật kết hợp từ ừ tập dữ liệu đãã xử lý; Lựa chọn các luật cho hhệ tư vấn; 0 Đếm các ttham số , , , 03: Với mỗi luuật trong tập lluật đã chọn Beginn Đ Đếm tham số ; Đ Đếm tham số ; Đ Đếm tham số ; Đ Đếm tham số ; End; Tạo bảng dữ liệu các thham số cho tập p luật; 300 3 HỆ TƯ VẤN D DỰA TRÊN TIẾP P CẬN HÀM Ý THỐNG T KÊ Luật 0 Áp dụng ccác độ đo hàm 04: m ý thống kê để xếp hạng các luật Với mỗi ddòng tham số , , , trong tập luậtt đã chọn Beginn Implicationinddex( , , , ); ); Implicationinteensity( , , , End; 0 Tạo bảng tính giá trị h 05: hấp dẫn cho từ ừng luật kết hợp h Luuật Implicaationindex Implicationin ntensity Kq= R Return(Kq) End; 4.1. 4 Xử lý dữ liệu Trong giai g đoạn xử llý dữ liệu, dựaa trên hồ sơ ng gười dùng (tập p thuộc tính) vvà các yêu cầầu của bài toán n tư vấn để . xác x định tập cáác thuộc tính đđiều kiện và tậập các thuộc tính quyết định h có dạng: , ,…, , ,…, 4.2. 4 Sinh tập luật l và lựa ch họn các luật ccho hệ tư vấn Trong bước b sinh luậtt kết hợp, chúnng tôi đề xuấtt áp dụng giải thuật Apriori [25] để sinh rra tập luật kết hợp từ tập dữ d liệu đã xử lý. l Thông thườ ờng tập luật kkết hợp được sinh s ra có số lư ượng rất lớn. V Vì thế, tùy theeo yêu cầu đặtt ra của bài , trong đó: toán tư vấn màà chúng ta chọọn lựa các luậtt có dạng , ,…, → ,…, , ,…, là tập các th là tập các thuộc tính huộc tính điềuu kiện, ,…, h quyết định. Ví dụ 1: 1 Sinh luật từ ừ tập dữ liệu ccó 3 thuộc tính h, trong đó thu uộc tính 1, 2 llà thuộc tính đđiều kiện, thuộ ộc tính 3 là th huộc tính quyyết định. Áp ddụng thuật toáán Apriori vớ ới Supp=0.01 và v conf=0.5 tta sinh được ttập luật kết hợ ợp gồm 26 lu uật, sau đó taa tiến hành lựaa chọn các luậật có vế phải chứa thuộc tíính quyết địnhh ta được tập luật kết quả gồm g 9 luật được đ trình bàyy trong hình 3.. K vực Khu Đ Điểm Kết q quả L Luật kết hợp 2 1.0 A 1. {V1=11} => {V3=A} 2. {V2=11.5} => {V3=A}} 1 1.5 A 3. {V1=33} => {V3=B} 3 00.5 B 4. {V2=00.5} => {V3=B}} 3 00.5 B Ap priori 5. {V2=11} => {V3=A} 2 1.0 A 6. {V1=22} => {V3=A} 1 1.5 A 7. {V1=11,V2=1.5} => {V V3=A} 1 1.5 A 8. {V1=33,V2=0.5} => {V V3=B} 2 1.0 A 9. {V1=22,V2=1} => {V33=A} 3 00.5 B 2 1.0 A Hìn nh 3. Kết quả sinh luật theo giảải thuật Apriori [25] 4.3. 4 Đếm các tham t số , , , củaa hàm tính độ ộ đo hàm ý Để áp dụng d được cácc độ đo hàm ý thống kê cũn ng như các độ đo hấp dẫn khhách quan kháác thì việc đếm m các tham số s , , , của từng luuật kết hợp làà một bước cầần thiết trong quy trình xử llý của hệ thốnng. Để đáp ứn ng yêu cầu này, n chúng tôi đề xuất phươ ơng pháp chuyyển đổi tập dữ liệu thô và tậập luật kết hợpp sang dạng m ma trận nhị phâ ân. Đối với tập dữ liệu thôô, dựa trên miiền giá trị của từng thuộc tính của tập dữ ữ liệu, việc chuuyển đổi đượợc thực hiện th heo nguyên tắc cứ mỗi giá trị của thuộc tính trên tập ddữ liệu thô sẽ sinh ra một cộ ột trên ma trậnn dữ liệu nhị pphân. Phan P Quốc Nghĩa, Nguyễn Minh K Kỳ, Nguyễn Tấn H Hoàng, Huỳnh Xu uân Hiệp 301 Ví dụ 2: 2 Chuyển đổi dữ liệu thô saang dạng Ma trận t dữ liệu nh hị phân được tthể hiện ở hìnhh 4. Dữ liệệu thô Ma trận dữ liệu u nhị phân Khu vực 2 1 3 3 2 1 1 2 3 2 Điểểm Kết quảả V V1=1 V1=2 2 V1=3 V2=1.5 V V2=1.0 V2= =0.5 V3=A V3=B 1.0 1.5 0.5 0.5 1.0 1.5 1.5 1.0 0.5 1.0 A A B B A A A A B A 0 1 0 0 0 1 1 0 0 0 1 0 0 0 1 0 0 1 0 1 0 0 1 1 0 0 0 0 1 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 1 0 0 1 0 1 0 0 1 1 0 0 0 0 1 0 1 1 0 0 1 1 1 1 0 1 0 0 1 1 0 0 0 0 1 0 Hình 4. Minnh họa chuyển từ dữ liệu thô saang Ma trận dữ liệu nhị phân Đối vớii tập luật kết hợp, chúng tôôi tách ra thàn nh ba ma trận dạng nhị phâân: Ma trận luuật nhị phân đầy đ đủ, Ma trrận luật nhị phân p vế trái vàà Ma trận luật ật nhị phân vế phải. Trong từng t ma trận nhị phân, việệc chuyển đổi được thực hiện h theo nguyyên tắc cứ mỗỗi thuộc tính xuất hiện tron ng vế trái hoặặc vế phải củaa luật kết hợpp sẽ sinh ra một m cột mới trrong ma trận luật l nhị phân ttương ứng. Ví dụ 3: 3 Từ tập luật kkết hợp ở trênn ta chuyển san ng ma trận nh hị phân tương ứ ứng được thể hiện trong hìn nh 5. Ma trrận luật nhị p phân đầy đủ Luật kết k hợp V V1=1 V1=2 2 V1=3 V2=1.5 V V2=1 V2=00.5 V3=A V3=B 1 0 0 0 0 0 1 0 {V1=1} => {V V3=A} 0 0 0 1 0 0 1 0 {V2=1.5} => {V3=A} 0 0 1 0 0 0 0 1 {V1=3} => {V V3=B} 0 0 0 0 0 1 0 1 {V2=0.5} => {V3=B} 0 0 0 0 1 0 1 0 {V2=1} => {V V3=A} 0 1 0 0 0 0 1 0 {V1=2} => {V V3=A} 1 0 0 1 0 0 1 0 {V1=1,V2=1.5} => {V3=A} 0 0 1 0 0 1 0 1 {V1=3,V2=0.5} => {V3=B} 0 1 0 0 1 0 1 0 {V1=2,V2=1} => {V3=A} Luật kết k hợp {V1=1} => {V V3=A} {V2=1.5} => {V3=A} {V1=3} => {V V3=B} {V2=0.5} => {V3=B} {V2=1} => {V V3=A} {V1=2} => {V V3=A} {V1=1,V2=1.5} => {V3=A} {V1=3,V2=0.5} => {V3=B} {V1=2,V2=1} => {V3=A} Luật kết k hợp {V1=1} => {V V3=A} {V2=1.5} => {V3=A} {V1=3} => {V V3=B} {V2=0.5} => {V3=B} {V2=1} => {V V3=A} {V1=2} => {V V3=A} {V1=1,V2=1.5} => {V3=A} {V1=3,V2=0.5} => {V3=B} {V1=2,V2=1} => {V3=A} V V1=1 1 0 0 0 0 0 1 0 0 V1=2 2 0 0 0 0 0 1 0 0 1 Ma trrận luật nhị p phân vế trái V1=3 V2=1.5 V V2=1 V2=00.5 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 1 0 V3=A 0 0 0 0 0 0 0 0 0 V3=B 0 0 0 0 0 0 0 0 0 V V1=1 0 0 0 0 0 0 0 0 0 V1=2 2 0 0 0 0 0 0 0 0 0 Ma trrận luật nhị p phân vế phải V1=3 V2=1.5 V V2=1 V2=00.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 V3=A 1 1 0 0 1 1 1 0 1 V3=B 0 0 1 1 0 0 0 1 0 Hình 5. Minhh họa chuyển từ ừ luật kết hợp saang Ma trận dữữ liệu nhị phân 302 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ Sau khi có Ma trận dữ liệu nhị phân, Ma trận luật nhị phân vế trái và Ma trận luật nhị phân vế phải, bước tiếp cho từng luật trong tập luật đã chọn theo công thức sau: theo là tiến hành đếm các tham số , , , - Đếm tham số n: n = số dòng của Ma trận dữ liệu nhị phân. - Đếm tham số nA: lấy từng dòng của Ma trận luật nhị phân vế trái so khớp với tất cả các dòng của Ma trận dữ liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng nA lên 1. - Đếm tham số nB: lấy từng dòng của Ma trận luật nhị phân vế phải so khớp với tất cả các dòng của Ma trận dữ liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng nB lên 1. : lấy từng dòng của Ma trận luật nhị phân đầy đủ so khớp với tất cả các dòng của Ma trận dữ - Đếm tham số . lên 1. Khi đó liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng Ví dụ 3: Đếm các tham số , , , từ tập luật kết hợp đã chọn được thể hiện trong bảng 1. Bảng 1. Kết quả đếm các tham số , Luật kết hợp , , cho từng luật kết hợp {V1=1} => {V3=A} 10 3 7 0 {V2=1.5} => {V3=A} 10 2 7 0 {V1=3} => {V3=B} 10 3 3 0 {V2=0.5} => {V3=B} 10 3 3 0 {V2=1} => {V3=A} 10 4 7 0 {V1=2} => {V3=A} 10 4 7 0 {V1=1,V2=1.5} => {V3=A} 10 3 7 0 {V1=3,V2=0.5} => {V3=B} 10 3 3 0 {V1=2,V2=1} => {V3=A} 10 4 7 0 4.3. Áp dụng các độ đo hàm ý thống kê để xếp hạng các luật phục vụ tư vấn của từng luật ta áp dụng cho hai độ đo hàm ý thống kê: Từ bảng kết quả đếm các tham số , , , Implication index [24] và Implication intensity [24], sau đó xếp hạng theo giá trị độ đo ta được kết quả trong bảng 2. Bảng 2. Bảng tính giá trị hấp dẫn cho từng luật kết hợp Luật kết hợp Implication index Implication intensity {V2=1.5} => {V3=A} -0.7745967 0.780711 {V1=1} => {V3=A} -0.9486833 0.8286091 {V1=1,V2=1.5} => {V3=A} -0.9486833 0.8286091 {V2=1} => {V3=A} -1.095445 0.8633392 {V1=2} => {V3=A} -1.095445 0.8633392 {V1=2,V2=1} => {V3=A} -1.095445 0.8633392 {V1=3} => {V3=B} -1.449138 0.9263504 {V2=0.5} => {V3=B} -1.449138 0.9263504 {V1=3,V2=0.5} => {V3=B} -1.449138 0.9263504 Từ kết quả này, khi cần tư vấn cho một đối tượng mới, chúng ta dựa trên các thuộc tính điều kiện của đối tương này và kết quả xếp hạng của tập luật dựa trên các độ đo hàm ý thống kê để đưa ra các khuyến nghị cho đối tượng mới lựa chọn các giá trị của thuộc tính quyết định một cách hợp lý nhất. V. THỰC NGHIỆM 5.1. Dữ liệu sử dụng Trong phần thực nghiệm này, để kiểm tra độ chính xác và khả năng ứng dụng của mô hình, chúng tôi sử dụng hai tập dữ liệu khác nhau để chạy mô hình trên hai kịch bản khác nhau. Kịch bản 1 chúng tôi sử dụng tập dữ Lenses của UCI [3]. Kịch bản 2 chúng tôi sử dụng tập dữ liệu tuyển sinh đại học, cao đẳng của Trường Đại học Trà Vinh. Trong kịch bản 1, chúng tôi tiến hành thực nghiệm trên tập dữ liệu Lenses (Cơ sở dữ liệu cho việc chọn kính sát tròng) của UCI [3]. Tập dữ liệu này gồm 24 mẩu tin, 5 thuộc tính (trong đó 4 thuộc tính đầu là thuộc tính điều kiện và thuộc tính thứ 5 là thuộc tính quyết định. Nội dung của tập dữ liệu được trình bày trong bảng 3. Phan Quốc Nghĩa, Nguyễn Minh Kỳ, Nguyễn Tấn Hoàng, Huỳnh Xuân Hiệp 303 Bảng 3. Tập dữ liệu Lenses của UCI TT V1 V2 V3 V4 V5 TT V1 V2 V3 V4 V5 1 1 1 1 1 3 13 2 2 1 1 3 2 1 1 1 2 2 14 2 2 1 2 2 3 1 1 2 1 3 15 2 2 2 1 3 4 1 1 2 2 1 16 2 2 2 2 3 5 1 2 1 1 3 17 3 1 1 1 3 6 1 2 1 2 2 18 3 1 1 2 3 7 1 2 2 1 3 19 3 1 2 1 3 8 1 2 2 2 1 20 3 1 2 2 1 9 2 1 1 1 3 21 3 2 1 1 3 10 2 1 1 2 2 22 3 2 1 2 2 11 2 1 2 1 3 23 3 2 2 1 3 12 2 1 2 2 1 24 3 2 2 2 3 Trong kịch bản 2, chúng tôi tiến hành thực nghiệm trên tập dữ liệu tuyển sinh của Trường Đại học Trà Vinh. Đây là tập dữ liệu được xuất ra từ phần mềm tuyển sinh của Trường với tổng số mẩu tin là 12287 trong đó có 3202 mẩu tin của năm 2012, 3624 mẩu tin của năm 2013 và 5461 mẩu tin của năm 2014. Trong tập dữ liệu này mỗi học sinh được mô tả bằng một hồ sơ gồm 71 thuộc tính (71 cột). Đây là dữ liệu tuyển sinh đặt trưng cho phương thức tuyển sinh theo Quy chế thi của Kỳ thi tuyển sinh ba chung. Trong kỳ thi này, học sinh đã làm hồ sơ dự thi để chọn Trường, chọn Ngành trước khi tham gia kỳ thi. 5.2. Công cụ thực hiện (ARQAT) Để triển khai hai kịch bản thực nghiệm, chúng tôi sử dụng công cụ ARQAT được triển khai trên RStudio. Đây là gói công cụ được nhóm chúng tôi phát triển từ nền tảng của công cụ ARQAT phát triển trên Java [16]. Trong gói công cụ này, chúng tôi cập nhật khá đầy đủ các hàm tính độ đo hấp dẫn khách quan cho luật kết hợp dựa trên 4 tham số , các chức năng xử lý dữ liệu, tích hợp hàm sinh luật Apriori của gói arules [19], chức năng đếm các tham n, , , , chức năng tính độ hấp dẫn của luật kết hợp theo các độ đo được chọn, chức năng xếp hạng luật theo số, , , , giá trị hấp dẫn, chức năng sinh kết quả tư vấn. 5.3. Kịch bản 1 Với mục tiêu kiểm tra độ chính xác của mô hình, chúng tôi tiến hành chạy từng bước của mô hình trên tập dữ liệu chuẩn Lenses do UCI công bố. Kết quả sinh luật của hàm Apriori với Supp=0.15 và conf=0.8 là 23 luật kết hợp. Từ kết quả này, chúng tôi chọn các luật có vế phải chứa thuộc tính quyết định cho hệ thống tư vấn gồm 10 luật được trình bày trong bảng 4. Bảng 4. Tập luật kết hợp được sinh ra từ tập dữ liệu Lenses Luật kết hợp {V4=1} => {V5=3} {V3=1,V4=2} => {V5=2} {V1=1,V4=1} => {V5=3} {V1=2, V4=1} => {V5=3} {V1=3,V4=1} => {V5=3} {V2=1,V4=1} => {V5=3} {V3=1,V4=1} => {V5=3} {V3=2, V4=1} => {V5=3} {V2=2,V4=1} => {V5=3} {V2=2,V3=2} => {V5=3} bằng cách gọi hàm đếm các tham số trong gói Bước thực nghiệm tiếp theo là đếm các tham số , , , công cụ ARQAT cho tập luật đã chọn và tạo ra bảng dữ liệu các tham số của tập luật như trong bảng 5. 304 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ Bảng 5. Kết quả đếm các tham số , Luật kết hợp , , cho từng luật kết hợp của tập dữ liệu Lenses {V4=1} => {V5=3} {V3=1,V4=2} => {V5=2} {V1=1,V4=1} => {V5=3} {V1=2, V4=1} => {V5=3} {V1=3,V4=1} => {V5=3} {V2=1,V4=1} => {V5=3} {V3=1,V4=1} => {V5=3} {V3=2, V4=1} => {V5=3} {V2=2,V4=1} => {V5=3} {V2=2,V3=2} => {V5=3} 24 24 24 24 24 24 24 24 24 24 12 6 4 4 4 6 6 6 6 6 15 5 15 15 15 15 15 15 15 15 0 1 0 0 0 0 0 0 0 1 Từ bảng dữ liệu các tham số, chúng tôi tiến hành khảo sát kết quả của hai độ đo: Độ đo chỉ số hàm ý (Implication Index) và Độ đo mật độ hàm ý (Implication Intensity) cho mỗi luật được chọn. Từ kết quả khảo sát của hai độ đo trên, chúng tôi tạo ra Bảng tính giá trị hấp dẫn cho từng luật kết hợp đồng thời xếp hạng các luật theo thứ tự giảm dần dựa trên giá trị của hai độ đo hàm ý thống kê. Kết quả của xếp hạng được thể hiện trong bảng 6. Bảng 6. Bảng tính giá trị hấp dẫn cho từng luật kết hợp của tập dữ liệu Lenses Luật kết hợp Implication index Implication intensity {V2=2,V3=2} => {V5=3} {V1=1,V4=1} => {V5=3} {V1=2,V4=1} => {V5=3} {V1=3,V4=1} => {V5=3} {V2=1,V4=1} => {V5=3} {V3=1,V4=1} => {V5=3} {V3=2,V4=1} => {V5=3} {V2=2,V4=1} => {V5=3} {V3=1,V4=2} => {V5=2} {V4=1} => {V5=3} -0.833333333 -1.224744871 -1.224744871 -1.224744871 -1.5 -1.5 -1.5 -1.5 -1.720618004 -2.121320344 0.797671619 0.889664319 0.889664319 0.889664319 0.933192799 0.933192799 0.933192799 0.933192799 0.957339918 0.983052573 Từ bảng tính giá trị hấp dẫn cho từng luật kết hợp này, chúng tôi gọi hàm sinh kết quả tư vấn với dữ liệu đầu vào là các thuộc tính điều kiện và kết quả đầu ra là tập các giá trị của thuộc tính quyết định được xếp theo thứ tự ưu tiên. Với các giá trị của thuộc tính quyết định này, hệ thống sẽ đưa ra các khuyến nghị cho người dùng khi cần chọn mua một kính sát tròng theo các thuộc tính điều kiện đầu vào đã cho trước. 5.4. Kịch bản 2 Với mục tiêu kiểm tra khả năng ứng dụng vào thực tế của mô hình và mong muốn xây dựng hệ tư vấn chọn ngành học cho học sinh, chúng tôi chọn tập dữ liệu tuyển sinh đại học, cao đẳng của Trường Đại học Trà Vinh để chạy thử mô hình lần thứ 2. Sau khi xem xét yêu cầu bài toán tư vấn chọn ngành học cho học sinh khi biết điểm thi các môn trong kỳ thi THPT quốc gia hoặc kết quả học tập các môn của ba năm học trung học phổ thông, chúng tôi tiến hành xử lý dữ liệu cho bài toán trên công cụ ARQAT cho kết quả trong bảng 7. Bảng 7. Kết quả xử lý dữ liệu tuyển sinh trên công cụ ARQAT row.names 1 2 V1 A A V2 1 1 V3 1 1 V4 300 350 V5 275 175 V6 300 350 V7 D140201 D140201 3 D1 1 1 175 300 425 D140201 4 D1 1 1 225 200 475 D140201 5 D1 1 1 150 400 475 D140201 6 C 1 1 650 300 450 D140201 7 C 1 1 600 475 550 D140201 8 C 1 1 675 575 550 D140201 9 B 1 1 150 400 325 D720101 10 B 0 2 575 550 500 D720101 Phan Quốc Nghĩa, Nguyễn Minh Kỳ, Nguyễn Tấn Hoàng, Huỳnh Xuân Hiệp 305 Trong bảng 7, các cột từ V1 đến V6 là các cột thuộc tính điều kiện. V1 chứa giá trị của thuộc tính khối thi dùng để xét tuyển vào đại học, cao đẳng của học sinh. Thuộc tính này phụ thuộc vào thông tin tuyển sinh hàng năm của từng trường, từng ngành học. V2 chứa giá trị của thuộc tính giới tính của học sinh. Trong quy chế tuyển sinh không có quy định cụ thể về giới tính khi chọn ngành học nhưng trong thực tế thì mối quan hệ giữa giới tính và ngành học là khá lớn. V3 chứa giá trị của thuộc tính khu vực của học sinh cư trú. Thuộc tính này cho chúng ta biết thông tin về nơi học trung học phổ thông của các em. V4, V5, V6 chứa giá trị của thuộc tính điểm thi của ba môn thi thuộc khối thi. Các thuộc tính này phản ánh trực tiếp năng lực học tập của học sinh, đồng thời cũng là ba thuộc tính điều kiện quan trọng để quyết định chọn ngành học của học sinh bởi vì theo Quy chế tuyển sinh thì để vào học đại học, cao đẳng một ngành nào đó thì học sinh phải có điểm ba môn này đạt trên ngưỡng đảm bảo chất lượng đầu vào hàng năm do Bộ Giáo dục và Đào tạo xác định. V7 chứa giá trị của thuộc tính ngành học. Đây là thuộc tính quyết định của hệ thống tư vấn. Sau khi xử lý dữ liệu thô chúng tôi tiến hành sinh tập luật kết hợp. Để thu được tập luật kết hợp tương đối đầy đủ, chúng tôi chọn giải pháp sinh luật kết hợp trên dữ liệu của từng năm và khi gọi hàm Apriori chúng tôi chọn độ hỗ trợ và độ tin cậy khá thấp (Supp=0.01, conf=0.5). Xuất phát từ yêu cầu của bài toán là trước khi làm thủ tục xét tuyển vào các trường đại học, cao đẳng học sinh đã có đầy đủ giá trị của các thuộc tính điều kiện (khối thi, giới tính, khu vực, điểm các môn) nhưng chưa chọn được giá trị của thuộc tính quyết định (ngành học), chúng tôi quyết định chọn các luật kết hợp có vế phải chứa thuộc tính quyết định (V7) cho hệ thống tư vấn. Kết quả của các bước được trình bày trong bảng 8. Bảng 8. Kết quả sinh tập luật kết hợp và chọn các luật cho hệ thống trên tập dữ liệu tuyển sinh Dữ liệu Số mẩu tin Số luật sinh ra Số luật được chọn Năm 2012 3202 54861 6448 Năm 2013 3624 44801 6118 Năm 2014 5461 53655 6820 Tổng cộng 12287 153317 19386 ), bước thực nghiệm tiếp theo là đếm Với mục tiêu đo độ hấp dẫn các luật dựa trên hàm 4 tham số f( , , , bằng cách gọi hàm trong công cụ ARQAT cho tập luật đã chọn và tạo ra bảng dữ liệu các các tham số , , , tham số của tập luật có cấu trúc như trong bảng 9. Bảng 9. Kết quả đếm các tham số , Rules , , cho từng luật kết hợp trên tập dữ liệu tuyển sinh n nA nB nAB_ 1 {V4=875} => {V7=D380101} 3624 4 452 0 2 {V6=750} => {V7=D720101} 3624 8 408 4 3 {V6=100} => {V7=D380101} 3624 9 452 4 4 {V5=1000} => {V7=D140201} 3624 9 428 5 5 {V6=675} => {V7=D720101} 3624 9 408 5 6 {V5=750} => {V7=D720101} 3624 10 408 6 7 {V6=125} => {V7=D380101} 3624 13 452 6 8 {V4=775} => {V7=D720101} 3624 14 408 10 3624 15 398 11 {V4=800} => {V7=D720101} 3624 16 408 12 9 10 {V3=3} => {V7=D720332} Với bảng dữ liệu các tham số này, chúng tôi tiến hành khảo sát độ hấp dẫn của các luật kết hợp đã chọn trên hai độ đo: Độ đo chỉ số hàm ý (Implication Index) và Độ đo mật độ hàm ý (Implication Intensity). Từ kết quả khảo sát của hai độ đo hàm ý thống kê trên, chúng tôi tạo ra Bảng tính giá trị hấp dẫn cho từng luật kết hợp đồng thời xếp hạng các luật theo thứ tự giảm dần dựa trên giá trị của hai độ đo hàm ý thống kê. Kết quả của xếp hạng được thể hiện trong bảng 10. Bảng 10. Bảng tính giá trị hấp dẫn cho từng luật kết hợp trên tập dữ liệu tuyển sinh Rules ImplicationIndex ImplicationIntensity 1.060453316 0.144469209 0.92445979 0.17762348 1 {V2=1} => {V7=D380101} 2 {V2=1,V3=1} => {V7=D380101} 3 {V5=250} => {V7=D720501} 0.499585979 0.308683316 4 {V2=1,V3=2} => {V7=D380101} 0.496455457 0.309786553 5 {V1=A,V2=1} => {V7=D380101} 0.466408537 0.320461551 306 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ 6 {V3=1,V5=350} => {V7=D380101} 0.406170576 0.342308636 7 {V1=A,V4=150} => {V7=D380101} 0.391975268 0.347538244 8 {V6=275} => {V7=D380101} 0.383860603 0.350540884 9 {V2=1,V3=1,V5=350} => {V7=D380101} 0.37465666 0.353957914 0.374603272 0.353977769 10 {V2=0} => {V7=D720332} Từ kết quả xếp hạng luật theo giá trị hấp dẫn của hai độ đo hàm ý thống kê, chúng tôi xây dựng hệ tư vấn hỗ trợ học sinh chọn ngành học trước khi đăng ký xét tuyển vào các trường đại học, cao đẳng. Trong hệ thống này, các em học sinh sẽ nhập vào hệ thống các giá trị thuộc tính điều kiện như: Khối thi (V1), Phái (V2), Khu vực (V3), Điểm môn 1 (V4), Điểm môn 2 (V5), Điểm môn 3 (V6) (Điểm thi ở đây có thể là điểm thi của Kỳ thi THPT quốc gia hoặc kết quả học tập các môn của ba năm học trung học phổ thông). Hệ thống sẽ dựa trên kết quả xếp hạng luật theo giá trị hấp dẫn của hai độ đo hàm ý thống kê để đưa ra danh mục các ngành theo thứ tự ưu tiên nhằm hỗ trợ các em chọn được ngành học phù hợp với năng lực bản thân các em. VI. KẾT LUẬN Trong bài viết này, chúng tôi đã xây dựng mô hình hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê. Trong mô hình này, chúng tôi đặc biệt quan tâm đến mối quan hệ hàm ý giữa tập thuộc tính điều kiện và tập thuộc tính quyết định trong từng ngữ cảnh cụ thể. Dựa trên tập luật kết hợp được sinh ra từ tập dữ liệu mô hình cho phép lựa chọn các luật theo yêu cầu của từng bài toán tư vấn. Khi đã chọn được tập luật cho bài toán, mô hình sẽ tiến hành khảo sát giá trị hấp dẫn của từng luật bằng hai độ đo hàm ý thống kê. Dựa trên kết quả của hai độ đo này, hàm tư vấn sẽ đưa ra kết quả khuyến nghị cho người dùng. Một điểm mới khác biệt giữa mô hình của chúng tôi so với các mô hình hệ tư vấn truyền thống là các mô hình truyền thống thường dựa trên hai đối tượng chính là người dùng và sản phẩm (hay mục dữ liệu) để phát triển các giải thuật tư vần còn trong mô hình của chúng tôi thì các thuật toán tư vấn được phát triển trên tập thuộc tính của một đối tượng người dùng. Trong các thuật toán này, chúng tôi dựa vào giá trị của các thuộc tính điều kiện để tính toán ra các giá trị của các thuộc tính quyết định của cùng một đối tượng. Qua kết quả thực nghiệm, chúng tôi thấy rằng mô hình của chúng tôi cho kết quả khuyến nghị khá phù hợp với yêu cầu thực tế trên tập dữ liệu chuẩn của UCI đồng thời có thể áp dụng cho bài toán tư vấn chọn ngành học theo yêu cầu của quy định tuyển sinh đại học, cao đẳng hiện nay. VII. TÀI LIỆU THAM KHẢO [1] Alan Said, Domonkos Tikk, Andreas Hotho, The Challenge of Recommender Systems Challenges (tutorial), ACM RecSys’12 - Proceedings of the sixth ACM conference on Recommender systems, pp.1-2, 2012. [2] Bart P. Knijnenburg, Conducting User Experiments in Recommender Systems (tutorial), ACM RecSys’12 Proceedings of the sixth ACM conference on Recommender systems, pp.1-2, 2012. [3] Cendrowska, PRISM: An algorithm for inducing modular rules, International Journal of Man-Machine Studies, 349-370, 1987, https://archive.ics.uci.edu/ml/machine-learning-databases/lenses. [4] Christos Zigkolis, Savvas Karagiannidis and Athena Vakali, Dissimilarity Features in Recommender Systems, ICDMW, 2013, 2013 IEEE 13th International Conference on Data Mining Workshops (ICDMW), 2013 IEEE 13th International Conference on Data Mining Workshops (ICDMW) 2013, pp.825-832, 2013. [5] F. Liu and H. J. Lee, Use of social network information to enhance collaborative filtering performance, Expert Systems with Applications 37(7), pp.4772-4778, 2010. [6] Ferdaous Hdioud, Bouchra Frikh and Brahim Ouhbi, Multi-Criteria Recommender Systems based on MultiAttribute Decision Making, IIWAS '13 Proceedings of International Conference on Information Integration and Web-based Applications & Services, pp 203, 2013. [7] Francesco Ricci, Lior Rokach and Bracha Shapira, Introduction to Recommender Systems Handbook, Recommender Systems Handbook, Springer-Verlag and Business Media LLC, pp.1-35, 2011. [8] G. Adomavicius and A. Tuzhilin, Expert-Driven Validation of Rule-Based User Models in Personalization Applications, Data Mining and Knowledge Discovery archive, volume 5 Issue 1-2, pp.33-58, 2001. [9] G. Adomavicius and A. Tuzhilin, Towards the next generation of recommender systems: A survey of the state-ofthe-art and possible extensions, IEEE Transactions on Knowledge and Data Engineering 17(6), pp.734-749, 2005. [10] G. Popescu, Group recommender systems as a voting problem, http://hci.epfl.ch/projects/GroupFun/, pp.1-44, 2011. [11] Gabor Takacs et al., Scalable collaborative filtering approaches for large recommender systems, Journal of Machine Learning Research, pp.623-656, 2009. Phan Quốc Nghĩa, Nguyễn Minh Kỳ, Nguyễn Tấn Hoàng, Huỳnh Xuân Hiệp 307 [12] Gediminas Adomavicius, Jingjing Zhang, Stability of Recommendation Algorithms, ACM Transactions on Information Systems 30(4), pp.1-31, 2012. [13] Guy Shani and Asela Gunawardana, Evaluating Recommendation Systems, Microsoft Research, pp.1-42, 2009. [14] Guy Shani, David Heckerman, Ronen I. Brafman, An MDP-Based Recommender System, Journal of Machine Learning Research (6), pp.1265-1295, 2005. [15] H. Ma et al., Improving recommender systems by incorporating social contextual information, ACM Transactions on Information Systems 29(2/9), pp.1-23, 2011. [16] Hiep Xuan Huynh, Fabrice Guillet, Henri Briand, ARQAT: An Exploratory Analysis Tool For Interestingness Measures, pp.334-344, 2005. [17] Maria Augusta S. N. Nunes, Rong Hu, Personality-based Recommender Systems: An Overview (tutorial), ACM RecSys’12- Proceedings of the sixth ACM conference on Recommender systems, pp.1-2, 2012. [18] Mario Rodríguez, Christian Posse, Ethan Zhang: Multiple objective optimization in recommender systems, ACM RecSys’12 - Proceedings of the sixth ACM conference on Recommender systems, pp.11-18, 2012. [19] Michael Hahsler, Christian Buchta, Bettina Gruen and Kurt Hornik, Mining Association Rules and Frequent Itemsets, Package ‘arules’ http://R-Forge.R-project.org/projects/arules/,http://lyle.smu.edu/IDA/arules/, 2014. [20] P. Bedi, H. Kaur, and S. Marwaha, Trust based recommender system for semantic web, IJCAI’07 - Proceedings of the 2007 International Joint Conferences on Artificial Intelligence, pp.2677-2682, 2007. [21] P. Resnick, N. Iakovou, M. Sushak, P. Bergstrom, and J. Riedl, GroupLens: An Open Architecture for Collaborative Filtering of Netnews, Proceedings of ACM 1994 Conference on Computer Supported Cooperative Work, Chapel Hill, pp.175-186, 1994. [22] Prem Meville, Vikas Sindhwani, Recommender Systems, Encyclopedia of Machine Learning, Springer-Verlag, pp. 829-838, 2010. [23] R. Bell, Y. Koren, and C. Volinsky, Modeling relationships at multiple scales to improve accuracy oflarge recommender systems, Proceedings of13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.95-104, 2007. [24] R. Gras and P. Kuntz, An overview of the Statistical Implicative Analysis (SIA) development, Statistical Implicative Analysis - Studies in Computational Intelligence (Volume 127), Springer-Verlag, pp.11-40, 2008. [25] Rakesh Agrawal and Ramakrishnan Srikant, Fast algorithms for mining association rules in large databases, Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, Santiago, Chile, pp.487-499, 1994. [26] Raphaël Couturier, Un système de recommandation basé sur l'analyse statistique implicative, Troisièmes Rencontres Internationales – Terzo Convegno Internazionale - Third International Conference, pp.151-156, 2005. [27] Régis Gras et al., L’implication statistique – Nouvelle méthode exploratoire de données, La pensée sauvage édition, 1996. [28] Thomas Piton, Julien Blanchard, Fabrice Guillet: CAPRE: A New Methodology for Product Recommendation Based on Customer Actionability and Profitability. ICDM Workshops 2011, pp.466-473, 2011. [29] Thu Minh Nguyen Tran, François Sempé, Jean-Daniel Zucker, AbsTop-Ka : un algorithme d'extraction de paires abstraites hautement corrélées pour mieux recommander dans "la longue traîne", EGC’10 Extraction et gestion des connaissances (EGC'2010), Revue des Nouvelles Technologies de l'Information (RNTI-E-19), CépaduèsÉditions, ISBN 978-2-85428-922-0, pp.689-690, 2010. [30] Thu Minh Nguyen Tran, François Sempé, Vinh Tuong Ho, Jean-Daniel Zucker, Mining Abstract Highly Correlated Pairs, RIVF’09 - 2009 IEEE-RIVF International Conference on Computing and Communication Technologies, pp.1-4, 2009. [31] Ting Yuan, Jian Cheng, Xi Zhang, Shuang Qiu, Hanqing Lu, Recommendation by Mining Multiple User Behaviors with Group Sparsity, AAAI Publications, Twenty-Eighth AAAI Conference on Artificial Intelligence, pp.222-228, 2014. [32] U. Shardanand and P. Maes, Social Information Filtering: Algorithms for Automating ‘Word of Mouth’, CHI '95 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 210-217, 1995. [33] W. Hill, L. Stead, M. Rosenstein, and G. Furnas, Recommending and Evaluating Choices in a Virtual Community of Use, Human Factors in Computing Systems, pp.194-201, 1995. 308 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ [34] Xavier Amatriain, Building Industrial-scale Real-world RecommenderSystems (tutorial), ACM RecSys’12Proceedings of the sixth ACM conference on Recommender systems, pp.1-2, 2012. [35] Xiwang Yang, Harald Steck, Yang Guo, Yong Liu: On top-k recommendation using social networks. ACM RecSys’12 - Proceedings of the sixth ACM conference on Recommender systems, pp.67-74, 2012. [36] Xiwang Yang, Harald Steck, Yong Liu: Circle-based recommendation in online social networks, Proceedings of 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.1267-1275, 2012. [37] Yehuda Koren, Robert Bell and Chris Volinsky, Matrix factorization techniques for recommender systems, Journal of Computer 42(8), IEEE Computer Society Press, pp.30-37, 2009. [38] Zhi Qiao, Peng Zhang, Yanan Cao, Chuan Zhou, Li Guo, Bingxing Fang, Combining Heterogenous Social and Geographical Information for Event Recommendation, AAAI Publications, Twenty-Eighth AAAI Conference on Artificial Intelligence, pp.145-151, 2014.