« Home « Kết quả tìm kiếm

Hệ Khuyến Nghị Cộng Tác Đồng Tác Giả


Tóm tắt Xem thử

- 109–120;DOI: 10.26459/hueuni-jtt.v127i2A.5017 HỆ KHUYẾN NGHỊ CỘNG TÁC ĐỒNG TÁC GIẢ Trần Đình Khang1, Võ Đức Quang2, Nguyễn Đăng Tuấn Anh1 1Trường Đại học Bách khoa Hà Nội, Số 1 Đại Cồ Việt, Hà Nội 2 Trường Đại học Vinh Tóm tắt: Mạng đồng tác giả là mạng lưới học thuật giữa các nhà nghiên cứu viết chung bài báo khoa học và mức độ kết hợp đồng tác giả có thể được đặc trưng bởi các độ đo liên kết.
- Dựa trên các đặc trưng đó, có thể xây dựng nhiều bài toán có ý nghĩa, trong đó có khuyến nghị cộng tác, gợi ý các tác giả có thể kết hợp trong tương lai hoặc tăng cường hợp tác.
- Bài báo này đề xuất một số độ đo liên kết mới dựa trên cộng đồng tác giả, kịch bản thiết lập bảng ứng viên động theo thời gian và xây dựng hệ khuyến nghị đồng tác giả sử dụng các độ đo đó.
- Từ khóa: mạng đồng tác giả, độ đo liên kết, khuyến nghị cộng tác 1 Đặt vấn đề Trong nghiên cứu khoa học, các nhà khoa học tạo ra sản phẩm là các bài báo khoa học, trong đó thường có nhiều người cùng tham gia và đứng tên đồng tác giả.
- Một nhà nghiên cứu đóng góp vào nhiều công trình khoa học sẽ có nhiều đồng tác giả khác nhau mà mức độ liên kết giữa họ có thể đo được bằng số các bài báo viết chung hoặc các thông tin khác như sự gắn kết về chuyên môn và nhóm nghiên cứu.
- Mối quan hệ giữa các tác giả và bài báo là quan hệ nhiều– nhiều, một tác giả có thể tham gia viết nhiều bài báo, một bài báo có thể có một hay nhiều tác giả đứng tên tạo ra một mạng lưới học thuật gọi là mạng đồng tác giả [2, 3, 8] với các nút là các tác giả, các cạnh thể hiện mối liên kết giữa hai tác giả.
- Theo cách biểu diễn đó, thì có thể coi mạng đồng tác giả là một mạng xã hội đặc biệt kế thừa nhiều đặc trưng của mạng xã hội nói chung như quan hệ lân cận chung và đường dẫn liên kết, nhưng cũng chứa đựng các đặc trưng riêng về chuyên môn, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v… Với các tính chất như vậy, việc xây dựng mạng đồng tác giả và giải quyết các bài toán đặt ra với mạng đồng tác giả đang thu hút sự quan tâm của nhiều nhóm nghiên cứu.
- Về các bài toán, có thể biểu diễn mạng đồng tác giả như các cơ sở dữ liệu để thực hiện các truy vấn, tìm kiếm đồng tác giả, nhưng cũng có thể thực hiện các bài toán dẫn xuất thông tin như dự đoán liên kết đồng tác giả hay khuyến nghị liên kết đồng tác giả .
- Việc dẫn xuất thông tin xem hai nhà khoa học có thể là đồng tác giả trong tương lai hay không là một bài toán có ý nghĩa giúp cho nhà khoa học mở rộng mối quan hệ học thuật của mình và tìm các sự cộng tác *Liên hệ: [email protected] Nhận bài .
- Các tính toán như vậy sẽ dựa vào các sự liên kết đồng tác giả trong quá khứ.
- Người ta thường lượng hóa mức độ liên kết giữa hai tác giả bằng các độ đo liên kết như độ đo lân cận chung và độ đo Jaccard [5, 6, 9].
- Ngoài các độ đo thông dụng cho mạng xã hội còn có các nghiên cứu bổ sung các độ đo đặc thù cho mạng đồng tác giả như vị trí tác giả trong bài báo hoặc lĩnh vực chuyên môn [8, 10].
- Từ mạng đồng tác giả ở thời điểm hiện tại có thể tính toán được các cặp tác giả tiềm năng liên kết trong tương lai hay còn gọi là ứng viên đồng tác giả.
- Kèm theo đó là các độ đo liên kết của các cặp ứng viên đó tạo thành bảng ứng viên đồng tác giả.
- Xét mạng đồng tác giả trong một khoảng thời gian T1, thì bảng ứng viên đồng tác giả có các hàng là các ứng viên đồng tác giả xét theo khoảng thời gian T1, các cột là các độ đo liên kết tính theo khoảng thời gian T1.
- Nếu T2 là khoảng thời gian xảy ra sau T1, thì có thể bổ sung thêm cột nhãn, có giá trị là 1 nếu cặp ứng viên thực sự là đồng tác giả trong khoảng T2, và có giá trị là –1 nếu cặp ứng viên không là đồng tác giả trong khoảng T2.
- Khi đó, có thể sử dụng bảng ứng viên với các độ đo và cột nhãn như một tập dữ liệu cho học máy để xây dựng mô hình về mối quan hệ giữa nhãn với các độ đo liên kết.
- Với mạng đồng tác giả có kích thước lớn thì số liên kết cũng rất lớn, theo bình phương của số nút.
- Do đó, một đặc tính của bảng ứng viên đồng tác giả là số ứng viên có nhãn –1 vượt trội so với số ứng viên có nhãn 1, tạo ra sự mất cân bằng về nhãn.
- Đề xuất thêm các độ đo về cộng đồng nghiên cứu, kết hợp với các độ đo truyền thống khác.
- Khảo sát bằng thực nghiệm sự ảnh hưởng của các độ đo với hiệu quả của mô hình để xác định tập độ đo liên kết phù hợp.
- Xây dựng bảng ứng viên theo kịch bản khoảng thời gian động để tận dụng các nhãn liên kết 1 làm cho bảng ứng viên đồng tác giả bớt mất cân bằng hơn.
- Xây dựng hệ khuyến nghị đồng tác giả.
- Bài báo được tổ chức như sau: phần tiếp theo trình bày về mạng đồng tác giả, các độ đo liên kết và bảng ứng viên.
- Phần 3 trình bày về các độ đo liên kết mới, kịch bản cải tiến thiết lập bảng ứng viên và đánh giá ảnh hưởng các độ đo liên kết đến hiệu quả dự báo.
- Phần 4 giới thiệu về hệ khuyến nghị cộng tác đồng tác giả.
- 2 Mạng đồng tác giả 2.1 Định nghĩa mạng đồng tác giả Một mạng đồng tác giả có thể được mô tả bằng hàm 𝐺𝑇=(𝑉𝑇,𝐸𝑇,𝑃𝑇,𝑇), trong đó 𝑇= {𝑡1, t2.
- là tập các đỉnh được tạo trong thời gian 𝑇, mỗi nút đại diện cho một tác giả trong cộng đồng nghiên cứu.
- Ngoài ra, tập đỉnh 𝑉𝑇 còn có thể chứa các thuộc tính của từng nút tương ứng với thông tin cá nhân của các tác giả như quốc tịch, trường Đại học/ Viện Nghiên cứu mà họ công tác, các lĩnh vực chuyên ngành, v.v… Các thuộc tính này được ký hiệu bằng tập 𝐴𝑇= {𝑎1, 𝑎2,…,N}, trong đó 𝑎𝑖 là vector đặc trưng chứa thông tin của tác giả/ đỉnh 𝑣𝑖.
- Các độ đo sự tương đồng giữa hai tác giả sẽ được xây dựng dựa trên thông tin của các tập 𝐸𝑇 và 𝐴𝑇.
- Cho trước một khoảng thời gian T thì GT là mạng đồng tác giả tương ứng với lát cắt thời gian đó.
- Bài toán khuyến nghị cộng tác sẽ sử dụng các thông tin từ GT để đưa ra các khuyến nghị cho một tác giả vi lựa chọn các ứng viên phù hợp để cộng tác đồng tác giả ở thời gian tiếp theo hoặc khuyến nghị cho một cặp tác giả (𝑣𝑖, 𝑣𝑗) tiếp tục tăng cường cộng tác đồng tác giả.
- 2.2 Các độ đo liên kết giữa hai tác giả Mức độ liên kết của một cặp tác giả trong mạng đồng tác giả thường được lượng hóa bởi các độ đo liên kết được trích xuất thông tin từ các tập ET, AT.
- Dưới đây là một số độ đo thông dụng.
- Các độ đo liên kết này có thể áp dụng trong nhiều loại mạng xã hội khác nhau, không chỉ riêng cho mạng đồng tác giả.
- Với mỗi nút 𝑣, ký hiệu T(𝑣) chỉ tập các nút lân cận của 𝑣 trong mạng đồng tác giả 𝐺.
- Ta có thể chia các độ đo liên kết thành hai nhóm chính: nhóm độ đo dựa trên lân cận và nhóm độ đo dựa trên đường đi.
- 𝑇(𝑣)| (1) (ii) Độ đo Adamic Adar (AA): Độ đo Adamic-Adar quan sát thêm số lượng nút lân cận của từng lân cận chung.
- 2.3 Bảng ứng viên đồng tác giả Từ mạng đồng tác giả ở thời điểm hiện tại, có thể tính toán được các cặp tác giả tiềm năng liên kết trong tương lai, hay còn gọi là ứng viên đồng tác giả.
- Kèm theo đó là các độ đo liên kết của các cặp ứng viên đó tạo nên bảng ứng viên đồng tác giả.
- Xét mạng đồng tác giả trong một khoảng thời gian T1 thì bảng ứng viên đồng tác giả có các hàng là các ứng viên đồng tác giả xét theo khoảng thời gian T1.
- các cột là các độ đo liên kết tính theo khoảng thời gian T1.
- Nếu T2 là khoảng thời gian xảy ra sau T1 thì có thể bổ sung thêm cột nhãn, có giá trị là 1 nếu cặp ứng viên thực sự là đồng tác giả trong khoảng T2 và có giá trị là –1 nếu cặp ứng viên không là đồng tác giả trong khoảng T2.
- Bảng ứng viên đồng tác giả Các độ đo liên kết ở Nhãn liên kết =1 (hoặc = –1), nếu là đồng tác giả (hoặc khoảng thời gian T1 không phải đồng tác giả) trong khoảng thời gian T2 Các cặp ứng viên đồng tác giả Giá trị các độ đo liên Giá trị nhãn ở khoảng thời gian T1 kết Thủ tục 1: Xây dựng bảng ứng viên đồng tác giả từ mạng đồng tác giả G.
- Tính các độ đo liên kết trong khoảng thời gian T1, và gán nhãn từ mạng đồng tác giả trong khoảng thời gian T2 (xảy ra sau T1).
- 112 jos.hueuni.edu.vn Tập 127, Số 2A, 2018  Bước 1:Xác định tập các cặp ứng viên đồng tác giả.
- Bước 2: Tính các độ đo liên kết của các cặp ứng viên trong khoảng thời gian T1.
- 3 Các độ đo theo cộng đồng tác giả và thiết lập bảng ứng viên đồng tác giả 3.1 Xây dựng các độ đo liên kết dựa trên cộng đồng tác giả Để so sánh sự tương đồng hay “gần gũi” giữa hai tác giả, ngoài việc sử dụng các đặc trưng liên kết của mạng, chúng ta còn có thể khai thác các thông tin ngữ nghĩa của từng cá nhân tác giả.
- Một tác giả hay một nhà nghiên cứu được đặc trưng bởi một số thông tin như quốc tịch, nơi làm việc (trường Đại học / Viện nghiên cứu) và lĩnh vực chuyên môn mà họ ưa thích.
- Các tác giả có chung quốc tịch hoặc nơi làm việc thường có sự gần gũi nhất định về mặt địa lý và ngôn ngữ, do đó khả năng họ có liên kết mới trong tương lai cũng cao hơn so với cặp tác giả không chung thông tin này.
- Tương tự với cặp tác giả có cùng lĩnh vực chuyên môn ưa thích, sự tương đồng giữa các vấn đề nghiên cứu mà họ quan tâm sẽ dẫn đến xác suất hợp tác lớn hơn.
- Ngoài ra, các tác giả có chung quốc tịch, nơi làm việc hoặc lĩnh vực chuyên môn thường có xu hướng hình thành một cộng đồng trong mạng lưới học thuật.
- Xuất phát từ mối liên hệ trên, các độ đo liên kết mới sẽ được xây dựng dựa trên thông tin từ nhiều cộng đồng khác nhau, bao gồm cộng đồng tác giả theo quốc gia và cộng đồng tác giả theo lĩnh vực chuyên môn.
- Độ đo cộng đồng tác giả theo quốc gia Xét tập tác giả 𝑉 = {𝑣1, 𝑣2.
- 𝑣𝑁}, trong đó tác giả 𝑣𝑖 được đặc trưng bởi hai thuộc tính: quốc tịch và nơi công tác (trường Đại học/ Viện nghiên cứu) ký hiệu bằng 𝑎𝑓𝑓𝑖𝑙𝑐𝑜𝑢𝑛𝑡𝑟𝑦 (𝑣𝑖) và 𝑎𝑓𝑓𝑖𝑙𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 (𝑣𝑖).
- Ta có hàm so sánh sự giống nhau về nơi công tác và quốc tịch giữa hai hoặc nhiều tác giả: 𝑠𝑖𝑚 _𝑤𝑜𝑟𝑘 (𝑣1, 𝑣2.
- 𝑎𝑓𝑓𝑖𝑙𝑐𝑜𝑢𝑛𝑡𝑟𝑦 (𝑣𝑛 ) (8) 0 𝑖𝑓 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 Độ tương đồng giữa hai tác giả 𝑢 và 𝑣 theo cộng đồng quốc gia được tính theo công thức 113 Trần Đình Khang và Cs.
- Độ đo cộng đồng tác giả theo lĩnh vực chuyên môn Mỗi tác giả trong mạng lưới học thuật còn được đặc trưng bởi các lĩnh vực chuyên môn mà họ quan tâm.
- Để tìm ra các lĩnh vực chuyên môn này của một tác giả chúng ta có thể lấy thông tin từ nội dung các bài báo được công bố trong quá khứ của họ.
- Từ kết quả phân tích chủ đề các bài báo, ta có thể xác định danh sách các chủ đề mà một tác giả có khả năng quan tâm theo phương pháp sau.
- 𝑝𝑖𝑁} là danh sách các bài báo mà tác giả 𝑣𝑖 đã công bố trong quá khứ.
- Từ các thông tin trên, ta có vector đặc trưng về lĩnh vực quan tâm của tác giả 𝑣𝑖 được tính theo công thức Tv𝑖 = ∑𝑗=1→⁡𝑁 𝑇𝑖𝑗 = (𝑡𝑖1, 𝑡𝑖2.
- Bằng việc chọn một ngưỡng 𝜃 thích hợp, ta có thể lọc ra danh sách các lĩnh vực được tác giả 𝑣𝑖 quan tâm nhất: Topics (𝑣𝑖.
- 𝑡𝑖𝑗> 𝜃 } (11) Mặt khác, các phần tử của tập (𝑣𝑖) sẽ thể hiện các cộng đồng chuyên môn mà tác giả 𝑣𝑖 là một thành viên.
- Từ thông tin của các cộng đồng này, ta sẽ xây dựng độ đo liên kết giữa hai tác giả (𝑢, 𝑣) dựa trên cộng đồng tác giả theo lĩnh vực chuyên môn như sau: C𝑜mmTopic(𝑢, 𝑣.
- 𝑇𝑜𝑝𝑖𝑐𝑠(𝑣)| (12) Có thể thấy với độ đo 𝐶𝑜𝑚𝑚𝑇𝑜𝑝𝑖𝑐, hai tác giả có càng nhiều lĩnh vực chung thì càng có khả năng liên kết với nhau trong tương lai.
- 3.2 Kịch bản thiết lập bảng ứng viên Để thiết lập bảng ứng viên, có thể chia các khoảng thời gian và tính toán các ứng viên, độ đo và gán nhãn như trình bày ở Thủ tục 1.
- Thực tế là một cặp ứng viên (u,v) từ khoảng thời gian T1 có thể trở thành đồng tác giả thực sự sau này, nhưng nếu chỉ gán nhãn trong khoảng thời gian T2 thì vẫn lấy nhãn –1 do chưa phải là đồng tác giả ở T2.
- Bài báo đề xuất một kịch bản cải tiến mới phù hợp hơn, trong đó các liên kết mới xuất hiện ở thời điểm t được gán độ đo từ thông tin của mạng đồng tác giả trong cả khoảng thời gian trước đó [0, t−1] hay mốc thời gian phân chia giai đoạn thay đổi theo thời điểm quan sát.
- Cách tiếp cận này có ưu điểm là tận dụng được toàn bộ thông tin về liên kết giữa các tác giả trong quá khứ, đồng thời không bỏ sót liên kết mới nào để thiết lập bảng ứng viên.
- Thủ tục 2: Xây dựng bảng ứng viên đồng tác giả từ mạng đồng tác giả G trong khoảng thời gian 𝑇= {𝑡1,t2,…,𝑡𝑘.
- Bước 1: Xác định tập các cặp ứng viên đồng tác giả.
- Sau đây là thực nghiệm với các dữ liệu thu thập từ thư viện khoa học trực tuyến ScienceDirect (sciencedirect.com) gồm các bài báo và tác giả thuộc ba tạp chí: Chemical Physics Letters, Journal of Molecular Biology và Biochemical and Biophysical Research Communications .
- Thông tin về số bài, số tác giả có trong Bảng 2.
- Bảng ứng viên được đưa vào một thủ tục phân lớp dựa vào các độ đo liên kết để phân lớp nhãn.
- Độ đo AUC đặc trưng cho xác suất chọn ngẫu nhiên hai cặp tác giả thì xác suất dự báo (predict probability) của cặp tác giả có liên kết sẽ lớn hơn cặp tác giả không có liên kết.
- Độ đo F1-score = 2 ×Precision/ (Precision + Recall).
- Các độ đo liên kết được thử nghiệm bao gồm các độ đo truyền thống được trình bày ở Phần 2.2 và hai độ đo cộng đồng mới được trình bày ở Phần 3.1 là Community country và Community topics.
- Các thử nghiệm so sánh hiệu quả phân lớp các tổ hợp độ đo theo kịch bản cải tiến thiết lập bảng ứng viên.
- Kết quả ở Bảng 4 và Bảng 5 theo các độ đo AUC và F1-Score.
- Các thử nghiệm trên định hướng cho việc lựa chọn tổ hợp các độ đo liên kết đồng tác giả khi thiết lập bảng ứng viên đồng tác giả cho tính toán các khuyến nghị.
- 4 Xây dựng hệ khuyến nghị cộng tác đồng tác giả Việc xây dựng hệ khuyến nghị cộng tác bao gồm bagiai đoạn.
- Tính toán các độ đo liên kết và thiết lập các bản ứng viên.
- Hệ thống khuyến nghị đồng tác giả được xây dựng với mục đích giúp các nhà nghiên cứu có thể tìm được danh sách những người có thể cộng tác hiệu quả trong tương lại một cách nhanh chóng và thuận tiện nhất.
- Dữ liệu thử nghiệm của hệ thống là các thông tin về bài báo và tác giả (tiêu đề bài báo, tóm tắt nội dung, từ khóa, thông tin tác giả, v.v…) từ 3 tạp chí Chemical Physics Letters, Journal of Molecular Biology, vàBiochemical and Biophysical Research Communications của Sciencedirect trong khoảng thời gian 2000–2017 thông qua API của Sciencedirect.
- Cụ thể các bảng dữ liệu: Journal, Country, Subject, Institute, Author, Paper, PaperAuthor, CoAuthorship.Các bảng Country, Subject, Institute bổ sung thông tin cho Author, bảng Journal bổ sung thông tin choPaper, bảng AuthorPaper cho biết tác giả của các bài báo cụ thể.
- Từ đó tính được CoAuthorship chứa các cặp đồng tác giả.
- Với CSDL đã có, tiến hành xây dựng hoàn thiện bảng ứng viên với kịch bản thiết lập đã trình bày (Phần 3.2) sử dụng các phương pháp tính toán các độ đo liên kết (Phần 2.2 và 3.1).
- Từ đó, tính toán được các độ đo liên kết cho các cặp ứng viên.
- Chức năng khuyến nghị được xây dựng dựa trên mô hình phân lớp Support Vector Machine (SVM) với dữ liệu đã gán nhãn của bảng ứng viên bao gồm học mô hình từ dữ liệu huấn luyện là bảng ứng viên đã gán nhãn, lưu trữ mô hình và sử dụng mô hình để tính toán khuyến nghị đồng tác giả.
- Giao diện của hệ thống Về công nghệ, hệ khuyến nghị đồng tác giả được thiết kế theo mô hình MVC (Model- View-Controller) sử dụng hệ quản trị CSDL MySQL, ngôn ngữ lập trình Python, thư viện Djan- go Web Framework và thư viện ScikitLearn (Python) để cài đặt các thành phần chức năng và giao diện của hệ thống.
- Hệ khuyến nghị đồng tác giả cho phép đưa ra top-N ứng viên theo thứ tự có khả năng cộng tác phù hợp nhất đối với một tác giả bất kỳ.
- Ngoài ra, hệ thống còn xây dựng các chức năng bổ sung như tìm kiếm, truy vấn và cập nhật thông tin tác giả, bài báo, tạp chí, quốc gia, và cho phép hiện thị trực quan mạng đồng tác giả.
- 118 jos.hueuni.edu.vn Tập 127, Số 2A, 2018 Ví dụ với tác giả Wang Fengping, hệ thống khuyến nghị top-5 các ứng viên tiềm năng: Guo Fuqiang, Guan Xinxin, Wang Yanan, Liu Pu, Huang Qiuying.
- Theo giao diện như ở Hình 1, người dùng cung cấp thông tin về khoảng thời gian, lựa chọn các độ đo liên kết và tên tác giả cần khuyến nghị.
- Hệ thống sẽ thực hiện phân lớp theo mô hình đã được huấn luyện để chọn ra các cặp ứng viên nhãn 1, trong đó có một thành phần là tác giả đó.
- Top-N đồng tác giả tiềm năng được lấy ra từ thành phần còn lại trong các cặp vừa được tính.
- 5 Kết luận Bài báo đã trình bày và phân tích về các độ đo liên kết trong mạng đồng tác giả, từ đó phát triển thêm các độ đo bổ sung về cộng đồng nghiên cứu.
- Bài báo cũng cải tiến xây dựng bảng ứng viên theo kịch bản khoảng thời gian động để tận dụng các nhãn liên kết dương, làm cho bảng ứng viên đồng tác giả bớt mất cân bằng hơn.
- Dựa trên cơ sở dữ liệu về thông tin bài báo học thuật thu thập được, các tác giả đã xây dựng một hệ thống khuyến nghị cộng tác khá hoàn chỉnh về chức năng, đáp ứng nhu cầu tra cứu, tham khảo và có nhiều tiềm năng phát triển mở rộng