« Home « Kết quả tìm kiếm

NHẬN DẠNG NGÔN NGỮ DấU HIỆU VớI CAMERA KINECT VÀ ĐẶC TRƯNG GIST


Tóm tắt Xem thử

- NHẬN DẠNG NGÔN NGỮ DẤU HIỆU VỚI CAMERA KINECT VÀ ĐẶC TRƯNG GIST Phạm Nguyên Khang 1 , Huỳnh Nhật Minh 1 , Võ Trí Thức 1 và Phạm Thế Phi 1.
- Ngôn ngữ ký hiệu, camera Kinect, máy học véc-tơ hỗ trợ, nhận dạng cử chỉ Keywords:.
- Trong bài báo này, chúng tôi đề xuất một phương pháp mới cho việc nhận dạng ngôn ngữ dấu hiệu.
- Với dữ liệu được thu nhận từ camera Kinect, chúng tôi trích các đặc trưng chuyển động của bàn tay.
- Chúng tôi đề xuất một phương pháp biểu diễn quỹ đạo chuyển động của bàn tay bằng cách chia quỹ đạo thành k (e.g.
- Với phương pháp này, đặc trưng chuyển động không phụ thuộc vào độ dài của quỹ đạo.
- Tất cả các đặc trưng trên được sử dụng để huấn luyện bộ nhận dạng được huấn luyện bằng mô hình máy học véc-tơ hỗ trợ.
- Thực nghiệm cho thấy kết quả nhận dạng đạt 90%..
- Như mọi người bình thường người khiếm thính cũng muốn được đi học, giao tiếp với người những người xung quanh, sử dụng máy tính,… Ngôn ngữ người khiếm thính sử dụng để giao tiếp hiện nay là ngôn ngữ dấu hiệu.
- liên quan đến nhận dạng ngôn ngữ dấu hiệu đã đề xuất.
- Nhận dạng tự động ngôn ngữ dấu hiệu là một bước không thể thiếu trong các hệ thống tương tác người-máy cho người khiếm thính (hoặc mở rộng hơn: các hệ thống tương tác người máy sử dụng dấu hiệu).
- Người khiếm thính có thể dùng ngôn ngữ dấu hiệu (ngôn ngữ thông thường của họ) để điều khiển máy tính, nhập văn bản, tìm kiếm thông tin bằng ngôn ngữ dấu hiệu.
- nhận dạng có thể kết hợp với hệ thống tổng hợp ngôn ngữ dấu hiệu để tạo thành một hệ thống tương tác người-máy hoàn chỉnh giúp người khiếm thính có thể “nói chuyện” được với máy tính, giúp họ hoà nhập cộng đồng tốt hơn trong kỷ nguyên công nghệ thông tin..
- Hệ thống nhận dạng ngôn ngữ dấu hiệu (sign language recognition system) dựa trên chuỗi hình ảnh hướng đến nhận dạng các từ trong ngôn ngữ dấu hiệu từ hình ảnh thu từ camera hoặc từ các đoạn video đã thu được từ trước.
- (2012) nhận dạng ngôn ngữ ký hiệu từ ảnh tĩnh bằng mạng nơ-ron.
- Tuy nhiên, các tác giả chỉ mới đề cập đến nhận dạng ảnh tĩnh chứ không phải đoạn video.
- (2012) đã đề xuất một phương pháp tách người ra dấu và xác định các vị trí quan trong như: đầu, vai, bàn tay, cùi chỏ dựa trên màu sắc và mô hình học máy rừng ngẫu nhiên.
- Một phát triển của phương pháp này được công bố trong (Charles et al., 2013)..
- Hàng loạt công trình liên quan đến việc ứng dụng dữ liệu thu được từ Kinect đã được công bố như: Nhận dạng tư thế người (Lan et al.
- 2013), Nhận dạng cử chỉ (Wang et al., 2012;.
- Hussein et al., 2013) và cả nhận dạng ngôn ngữ dấu hiệu.
- Trong (Agarwal và Thakur, 2013), các tác giả trình bày một phương pháp để nhận dạng các số (từ 0 đến 9) trong ngôn ngữ dấu hiệu..
- Trong bài báo này, chúng tôi sử dụng dữ liệu thu được từ camera Kinect (Shotton et al., 2011) để phục vụ cho việc nhận dạng ngôn ngữ dấu hiệu..
- Hai đóng góp chính của bài báo là: (i) đề xuất 4 phương pháp trích đặc trưng quỹ đạo của bàn tay và (ii) kết hợp các đặc trưng quỹ đạo chuyển động của bàn tay và đặc trưng hình dáng của bàn tay nhằm làm tăng khả năng phân biệt của các đặc trưng.
- tiếp theo đó, chúng tôi trình bày 4 phương pháp trích đặc trưng quỹ đạo.
- chuyển động và trích đặc trưng hình dáng bàn tay với đặc trưng GIST.
- 2 THU NHẬN DỮ LIỆU VỚI CAMERA KINECT.
- 2.2 Thu nhận ngôn ngữ dấu hiệu với camera Kinect.
- Từ dữ liệu khung xương, ta có thể trích xuất dễ dàng góc quay giữa các khớp xương để phục vụ các tác vụ khác như: nhận dạng tư thế..
- Đối với ngôn ngữ ký hiệu, vị trí của hai tay và đầu là đáng quan tâm nhất.
- Ngoài ra, đa phần các từ trong ngôn ngữ dấu hiệu chỉ cần dùng một tay là đủ để biểu diễn..
- 3 TRÍCH ĐẶC TRƯNG.
- Trích đặc trưng là một bước không thể thiếu trong bất kỳ bài toán nhận dạng nào.
- Đối với ngôn ngữ ký hiệu, dữ liệu chúng ta thu nhận được là một đoạn video ngắn khoảng 30 – 35 khung (frame).
- Ta cần phải trích thông tin quan trọng từ dữ liệu này..
- Dựa vào trực quan, chúng ta có thể dễ dàng thấy rằng: mỗi từ trong ngôn ngữ dấu hiệu là một cử chỉ (gesture) được thực hiện bằng tay và đôi khi kết hợp với đầu.
- Vì thế, trong nghiên cứu này chúng tôi đề xuất một phương pháp mới để trích đặc trưng và biểu diễn các từ dưới dạng véc-tơ đặc trưng có cùng số chiều.
- 3.1 Đặc trưng chuyển động của bàn tay Kênh khung xương của dữ liệu thu được từ camera Kinect cho phép ta trích được vị trí của bàn tay theo thời gian.
- Vì số lượng khung của mỗi từ không giống nhau nên ta không thể sử dụng trực tiếp danh sách điểm này như đặc trưng của quỹ đạo.
- Ta cần phải trích các đặc trưng sao cho nó độc lập với số lượng khung ảnh của một từ..
- Chúng tôi nghiên cứu các đặc trưng có tính chất này theo ba hướng: (i) canh lề và nội suy các quỹ đạo và (ii) tổng hợp thông tin theo thời gian và (iii) kết hợp cả hai hướng trên.
- Với tiếp cận, đó chúng tôi đề xuất 4 phương pháp mới cho việc trích xuất đặc trưng quỹ đạo chuyển động..
- 3.1.1 Phương pháp 1.
- Phương pháp này thuộc họ canh lề và nội suy..
- Giả sử quỹ đạo chuyển động của bàn tay được một tả bằng n điểm P = (p 1 , p 2.
- Để trích đặc trưng, chúng tôi chia quỹ đạo thành k (ví dụ k = 15) đoạn và mỗi đoạn lấy 1 điểm đại diện sau đó tính các đặc trưng sau:.
- Tâm của quỹ đạo:.
- Như thế, với phương pháp này véc-tơ đặc trưng thu được có chiều..
- Để đặc trưng tâm của quỹ đạo bất biến với phép tịnh tiến chúng tôi tính vị trí tương đối (hiệu) của tâm quỹ đạo so với vị trí của đầu..
- 3.1.2 Phương pháp 2.
- Phương pháp này tổng hợp các thông tin theo thời gian.
- 3.1.3 Phương pháp 3.
- Phương pháp này kết hợp cả phương pháp 1 và 2.
- Ý tưởng chính là chia quỹ đạo chuyển động của bàn tay thành k (ví dụ k = 4) phần, với mỗi phần ta tính 8 đặc trưng theo phương pháp 2.
- Như vậy, với mỗi một mẫu sẽ có tổng cộng 8*k đặc trưng..
- Phương pháp này chính là tổng quát hoá của phương pháp 2.
- Nếu chọn k = 1, ta có kết quả như phương pháp 2..
- 3.1.4 Phương pháp 4.
- Tương tự phương pháp 3, nhưng thay vì đếm số lượng điểm rơi vào từng phần, ta sẽ cộng dồn độ lớn của gradient tại điểm đang xét.
- Ý tưởng của phương pháp này dựa trên tinh thần của đặc trưng cục bộ SIFT (Lowe, 2004)..
- 3.2 Đặc trưng hình dáng bàn tay.
- Chúng tôi đề xuất sử dụng đặc trưng GIST (Oliva và.
- Torralba, 2001) để trích đặc trưng về hình dáng của bàn tay tại 3 thời điểm: bắt đầu, ở giữa và kết thúc một từ.
- Trong ngôn ngữ ký hiệu hình dáng bàn tay lúc bắt đầu và kết thúc là quan trọng nhất có khả năng phân biệt cao..
- Đặc trưng GIST thuộc nhóm đặc trưng biến đổi toàn cu ̣c và khai triển chuỗi.
- Xét bài toán phân lớp tuyến tính nhị phân..
- Cũng cùng một mục tiêu đó, mô hình SVM cho bài toán phân lớp tuyến tính nhị phân cũng tìm một siêu phẳng tách rời hai lớp dữ liệu.
- Giải bài toán tối ưu này ta thu được w và.
- Bài toán đối ngẫu của nó:.
- Mô hình SVM được cho là một phương pháp tổng quát cho các bài toán của học máy bao gồm:.
- Nếu xét riêng về khả năng giải bài toán phân lớp, SVM có tính tổng quát hoá cao (nhờ vào lề lớn) vì thế hiệu quả phân lớp luôn bằng hoặc cao hơn các phương pháp phân lớp khác..
- Để giải bài toán này, nhiều phương pháp đã được đề xuất và công bố trong đó có thể kể đến mô hình SMO (Platt, 1998).
- Một số công trình khác biến đổi một ít mô hình SVM để chuyển từ bài toán quy hoạch toàn phương sang bài toán hệ phương trình tuyến tính (Fung và Mangasarian, 2001) hay cải biên bài toán SVM gốc để giải bằng phương pháp lặp.
- 4.2 Nhận dạng ngôn ngữ ký hiệu với máy học véc-tơ hỗ trợ.
- Các đặc trưng được trích ra trong bước trích đặc trưng được dùng để biểu diễn các từ ngôn ngữ dấu hiệu.
- Như thế, mỗi từ được biểu diễn bằng một véc-tơ đặc trưng có n phần tử.
- Trong cả ba phương pháp trích đặc trưng chúng tôi đề xuất, n có giá trị khá lớn nên chỉ cần mô hình SVM tuyến tính là có thể phân lớp được dữ liệu..
- Bài toán nhận dạng ngôn ngữ dấu hiệu là bài toán đa lớp:.
- mỗi từ trong ngôn ngữ dấu hiệu tương ứng với một lớp.
- Để nhận dạng một phần tử dữ liệu mới thuộc lớp nào, ta cho cả k mô hình SVM cùng phân lớp phần tử này, sau đó quyết định lớp của phần tử mới bằng phương pháp bình chọn số đông.
- 5 KẾT QUẢ THỰC NGHIỆM 5.1 Dữ liệu.
- Hình 2 minh hoạ một số ngôn ngữ ký hiệu do chúng tôi thu thập từ các học viên của trường dạy trẻ khuyết tật thành phố Cần Thơ..
- Hình 2: Một số từ trong ngôn ngữ dấu hiệu 5.2 Kết quả nhận dạng với các phương.
- pháp trích đặc trưng khác nhau.
- Bảng 1 trình bày kết quả phân lớp (độ chính xác phân lớp tổng thể) đối với các phương pháp trích đặc trưng khác nhau.
- Phương pháp 4 cho kết quả cao nhất so với các phương pháp 1, 2 và 3..
- Việc kết hợp đặc trưng quỹ đạo chuyển động và đặc trưng về hình dáng bàn tay cho kết quả cao nhất, đạt 90%.
- Điều này cho thấy rằng thông tin về hình dáng bàn tay đóng vai trò rất quan trọng trong việc nhận dạng ngôn ngữ ký hiệu..
- Bảng 1: so sánh kết quả phân lớp đối với các phương pháp trích đặc trưng.
- TT Đặc trưng Phương.
- pháp 2 Phương pháp 3.
- 1 Quỹ đạo .
- 3 Quỹ đạo + hình dáng bàn tay .
- 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tôi đã trình bày một phương pháp mới trong nhận dạng ngôn ngữ dấu hiệu với dữ liệu thu thập từ camera Kinect và đặc trưng GIST.
- Kết quả thực nghiệm cho thấy rằng phương pháp trích đặc trưng quỹ đạo bằng cách kết hợp chia đoạn và tổng hợp thông tin theo thời gian cho kết quả cao nhất.
- Việc kết hợp đặc trưng quỹ đạo kết hợp với đặc trưng hình dáng bàn tay đã cải thiện đáng kể hiệu quả nhận dạng.
- Kết quả này có thể so sánh được với các phương hiện nay trong lĩnh vực nhận dạng ngôn ngữ dấu hiệu như mô hình Markov ẩn..
- Một hướng phát triển khác là nghiên cứu phương pháp nhận dạng các từ liên tục nhằm xây dựng thành một hệ thống có khả năng giao tiếp với người khiếm thính.
- Chúng tôi hi vọng rằng kết quả nhận dạng sẽ tốt hơn nếu thực nghiệm trên dữ liệu thu nhận với Kinect v2..
- Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên, Võ Đức Hoàng, Hồ Viết Hà, Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng Neuron nhân tạo, Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, Số: 12 (61);