« Home « Kết quả tìm kiếm

Giới thiệu chế độ dự đoán trong ảnh mới dựa trên quá trình dự đoán liên lớp dành cho khả năng mở rộng của chuẩn HEVC


Tóm tắt Xem thử

- GIỚI THIỆU CHẾ ĐỘ DỰ ĐOÁN TRONG ẢNH MỚI DỰA TRÊN QUÁ TRÌNH DỰ ĐOÁN LIÊN LỚP DÀNH CHO KHẢ NĂNG MỞ RỘNG CỦA CHUẨN HEVC Nguyễn Tăng Khả Duy 1.
- Dự đoán trong ảnh, dự đoán liên lớp, HEVC, SHVC, TextureRL.
- Trong khuôn khổ của TextureRL, nghiên cứu này sẽ trình bày một chế độ dự đoán trong ảnh mới để mã hóa các khối ở lớp mở rộng của SHVC.
- Chế độ này đầu tiên sẽ phân giải khối đã được dự đoán bằng chế độ dự đoán trong ảnh ở lớp mở rộng và khối có cùng vị trí ở lớp cơ sở tương ứng ra thành các thành phần DC (giá trị trung bình) và AC (giá trị khác biệt).
- bốn thành phần này sẽ được cộng lại theo một tỷ lệ phụ thuộc vào vị trí của từng điểm ảnh và chế độ dự đoán trong ảnh ban đầu.
- Các hệ số tỷ lệ này được tính toán bằng phương pháp bình phương nhỏ nhất dựa trên các dữ liệu huấn luyện chọn lọc.
- Sau đó, các chế độ dự đoán ảnh liên lớp có thể được thực hiện như chế độ dự đoán liên ảnh (inter prediction) trong cùng một lớp.
- Phương pháp này kết hợp giá trị dự đoán được tại từng điểm ảnh trong một khối ở lớp nâng cao (khối này được dự đoán bằng phương pháp dự đoán trong ảnh) với giá trị tại các điểm ảnh trong cùng một khối tương ứng ở lớp cơ sở.
- hệ số tỷ lệ này phụ thuộc vào vị trí của điểm ảnh so với điểm ảnh gốc tại vị trí (0,0) của khối đang được dự đoán..
- Vấn đề của phương pháp này là nó chỉ sử dụng duy nhất một giao thức tỷ lệ mà chưa quan tâm đến sự khác biệt do các khối ở lớp nâng cao có thể được tạo nên bằng các chế độ dự đoán trong ảnh khác nhau (chú ý rằng, hiện tại HEVC có đến 35 chế độ dự đoán trong ảnh)..
- Với phương pháp đề xuất này, các thành phần giá trị trung bình (kể từ đây sẽ được gọi là giá trị DC) ở cấp độ dự đoán khối và sự khác biệt (chúng tôi gọi là AC) ở cấp độ dự đoán điểm ảnh của từng khối ở lớp nâng cao và lớp cơ sở sẽ được trích ra và sau đó cả bốn thành phần này sẽ được cộng lại theo một tỷ lệ nhất định.
- Tương ứng với cách thức hoạt động của thuật toán được đề xuất, chúng tôi tạm gọi thuật toán này có tên là Chế độ dự đoán trong ảnh liên lớp dựa trên hệ số tỷ lệ ở cấp độ điểm ảnh (Pixel-based Weighted Intra-Inter-Layer Prediction – PWIILP)..
- Các hệ số tỷ lệ này được xác định thông qua một quá trình huấn luyện dựa trên thuật toán bình phương nhỏ nhất (least-square).
- Kết quả sơ bộ cho thấy chế độ dự đoán này giảm BD-rate từ 0,5-1,0%.
- 1, đầu tiên, các thông tin kết cấu bề mặt của khối được tạo nên từ chế độ dự đoán trong ảnh ở lớp nâng cao và khối được tái tạo ở lớp cở được phân tách ra thành các thành phần DC và AC.
- Chú ý rằng, các bảng giá trị tham chiếu này là riêng biệt cho từng chế độ dự đoán trong ảnh ở lớp nâng cao và cũng riêng biệt cho từng khối khác nhau về kích thước.
- T đại diện cho các giá trị dự đoán tại điểm ảnh k được tạo nên từ khối cần dự đoán tại lớp nâng cao và khối tương ứng tại lớp cơ sở.
- Với nhứng giá trị trên, gọi giá trị dự đoán cuối cùng là p k =[p k (1) p k (2.
- k  k  k ] T là một véc-tơ trọng số mà các phần tử là các giá trị trọng số liên kết với bốn thành phần để dự đoán tại điểm ảnh k.
- Sau đó, những khối mã hoá bằng thuật toán đề xuất sẽ được sử dụng để tính toán nhằm tìm ra hàm trọng số tỷ lệ tối ưu dựa trên công thức (5)..
- Dựa trên công thức (4), ta có thể thấy rằng mỗi lần lặp lại của quá trình huấn luyện dữ liệu, chúng ta cần phải gán một giá trị khởi tạo cho hàm trọng số tỷ lệ.
- Cụ thể, cho quá trình lặp lại đầu tiên, giá trị trọng số tỷ lệ tương ứng với giá trị trung bình của kết cấu bề mặt giữa khối được dự đoán bằng chế độ dự đoán trong ảnh ở lớp nâng cao và khối được tái tạo từ lớp cơ sở.
- Giá trị khởi tạo này dùng để xác định được khối cần dự đoán p k cho quá trình so sánh RDO.
- Sau đó, các hàm trọng số tỷ lệ tìm được của quá trình lặp lại thứ nhất được gán trở lại thành giá trị ban đầu cho quá trình lặp lại thứ hai.
- Đồng thời, các hàm trọng số tỷ lệ này là chung nhất cho tất cả các video trong quá trình huấn luyện (và kết quả của quá trình huấn luyện dữ liệu – tức là hàm trọng số tỷ lệ tối ưu – cũng được dùng chung nhất cho tất cả các video trong quá trình thí nghiệm).
- Cuối cùng, điều kiện để thoát khỏi quá trình huấn luyện khi các hàm trọng số tỷ lệ được tối ưu.
- Do đó, các hàm trọng số tỷ lệ trong nghiên cứu này nên được hiểu như là các hàm trọng số tỷ lệ tìm được từ quá trình huấn luyện với các video cụ thể (sẽ được trình bày chi tiết trong Mục 4.1 – Điều kiện và mô hình thí nghiệm)..
- 3 PHÂN TÍCH MÔ HÌNH TRỌNG SỐ Phần này sẽ phân tích cách tính toán các trọng số tỷ lệ dành cho thành phần DC và AC ở các phân lớp khác nhau.
- Giá trị cho các hàm trọng số này đặc trưng cho tỷ lệ mà mỗi thành phần sẽ góp phần vào khối dự đoán sau cùng ở cấp độ điểm ảnh..
- Hàm trọng số tỷ lệ của mỗi cặp thành phần (DC hoặc AC) ở lớp nâng cao và lớp cơ sở có tổng bằng 1 và giá trị tại mỗi điểm ảnh của khối dự đoán sau cùng sẽ phải nằm trong khoảng từ 0 – 255 tương ứng với giá trị 8 bit tại mối điểm ảnh trong mô hình thí nghiệm.
- Sự phân tích sâu của hàm trọng số tỷ lệ (weighting functions) sẽ tương ứng với (1) Các chế độ dự đoán trong ảnh tại lớp nâng cao, (2) Giá trị lượng tử hóa (Quantization value - QP) của lớp cơ sở và nâng cao, và (3) Kích thước của khối dự đoán..
- 3.1 Ảnh hưởng của các chế độ dự đoán trong ảnh.
- Tiểu mục này khảo sát ảnh hưởng của chế độ dự đoán trong ảnh lên hàm trọng số tỷ lệ.
- Hình 2 cho thấy dạng sóng của hàm trọng số tỷ lệ của chế độ dự đoán trong ảnh dọc (vertical mode) ở lớp nâng cao cho một khối kích thước 16x16.
- Hơn nữa, ta có thể nhận thấy giá trị trọng số tỷ lệ dành cho thành phần DC của lớp nâng cao nhỏ hơn nhiều so với lớp cơ sở, điều này giải thích được cho việc thay thế thành phần DC của lớp nâng cao bằng thành phần DC của lớp cơ sở trong giải thuật IDCC.
- Chúng ta cũng có thể thấy rằng các trọng số tỷ lệ có dạng sóng phụ thuộc vào chế độ dự đoán trong ảnh ở lớp nâng cao (trong trường hợp này, chế độ dự đoán tạo ra khối dự đoán ở lớp nâng cao là chế độ dọc.
- Như vậy, có thể kết luận rằng giải thuật đề xuất phụ thuộc vào chế độ dự đoán trong ảnh tại lớp nâng cao..
- Hình 2: Dạng sóng của hàm trọng số tỷ lệ của thành phần AC và DC ở lớp nâng cao và lớp cơ sở.
- dạng sóng thu được từ chế độ dự đoán trong ảnh dọc (vertical intra prediction mode), kích thước khối 16x16 3.2 Ảnh hưởng của kích thước khối.
- Phần này sẽ tìm hiểu về tác động của kích thước của khối dự đoán lên trọng số tỷ lệ.
- Ảnh hưởng của kích thước khối một phần nào đó có thể dự đoán được (hiển nhiên, giá trị trọng số tại lớp nâng cao sẽ cao hơn cho các kích thước khối nhỏ hơn).
- mặc dù, các thông tin về kết cấu bề mặt trong lớp cơ sở có thể thay đổi kết quả dự đoán trên..
- Trong trường hợp này, Hình 3 mô tả dạng sóng của hàm trọng số tỷ lệ của thành phần DC ở lớp nâng.
- Đó là dạng sóng của hàm trọng số tỷ lệ tìm được tương ứng với chế độ dự đoán trong ảnh dọc và phẳng.
- Điều này hoàn toàn có giải thích được vì các chế độ dự đoán trong ảnh phụ thuộc vào các điểm ảnh lân cận.
- Hình 3: Dạng sóng của hàm trọng số tỷ lệ của thành phần DC ở lớp nâng cao của chế độ dự đoán trong ảnh dọc và phẳng (vertical and planar intra prediction mode) với các kích thước khối khác nhau.
- 3.3 Ảnh hưởng của giá trị lượng tử hóa Phần này sẽ tìm hiểu ảnh hưởng của thiết lập thông số lượng tử hóa (quantization parameter – QP) lên hàm trọng số tỷ lệ.
- Hình 4 mô tả dạng sóng của hàm trọng số tỷ lệ của thành phần DC ở lớp nâng cao dọc theo mặt cắt trục Y tại điểm có giá trị bằng 10 (của một hàng có 16 giá trị) cho các thiết lập giá trị lượng tử khác nhau.
- Lưu ý, kết quả thể hiện trong Hình 4 tương ứng với chế độ dự đoán trong ảnh ngang (horizontal intra prediction mode)..
- Từ kết quả ta có thể thấy được hàm trọng số tỷ lệ giảm dần khi di chuyển dọc theo trục X (trong đó X là trục nằm ngang) bởi vì bản chất của chế độ.
- dự đoán trong ảnh ngang và đây cũng là kết quả mà chúng ta đã thấy trong phần phân tích ảnh hưởng của chế độ dự đoán trong ảnh.
- Một quan sát thú vị hơn từ các giá trị trọng số tỷ lệ của các thiết lập trị số lượng tử hóa trong cùng một tập đó là mặc dù trị số lượng tử hóa tối thiểu và tối đa là khác nhau rất lớn (trị số lượng tử hóa 22 cho giá trị tối thiểu và 34 cho giá trị tối đa), thì sự khác biệt về biên độ trong dạng sóng của các thiết lập này khác nhau không đáng kể.
- Từ nhiều thí nghiệm với tất cả các khả năng tổ hợp của các thiết lập trên trị số lượng tử hóa, chúng tôi nhận thấy ảnh hưởng của thiết lập trị số lượng tử hóa lên các hàm trọng số tỷ lệ về phương diện tiết kiệm số lượng dữ liệu mã hóa là không khác nhau nhiều.
- Vì thế, từ những quan sát này cho ta một khả năng thống nhất các hàm trọng số tỷ lệ cho các thiết lập của trị số lượng tử cho tất cả các video được dùng cho thí nghiệm với các điều kiện kiểm tra được đặc tả trong các điều kiện thử nghiệm thông thường..
- Hình 4: Các đường cong chỉ ra dạng sóng của trọng số tỷ lệ của thành phần DC ở lớp mở rộng của chế độ dự đoán trong ảnh ngang (horizontal intra prediction mode) với các thiết lập giá trị lượng tử hóa khác nhau và được chia thành hai nhóm: (a) Giá trị lượng tử hóa ở cả hai lớp giống nhau.
- (b) Giá trị.
- Đầu tiên, các hàm trọng số tỷ lệ là phụ thuộc chế độ dự đoán trong ảnh ở lớp nâng cao.
- và sự tách riêng các thành phần AC và DC cho nhiều ưu điểm khi tổng hợp chúng lại theo các hàm trọng số tỷ lệ.
- Thứ hai, lớp nâng cao có trọng số tỷ lệ cao hơn cho các khối dự đoán có kích thước nhỏ hơn..
- Thứ ba, mặc dù các thiết lập trị số lượng tử hóa có thể rất khác biệt trong cùng một nhóm nhưng lại có dạng sóng của các hàm trọng số tỷ lệ khá giống nhau.
- điều này có thể cho phép đơn giản hóa giải thuật đề xuất bằng cách thống nhất các hàm trọng số tỷ lệ cho các trị số lượng tử hóa khác nhau..
- Hơn nữa, tỷ lệ độ phân giải giữa lớp nâng cao và lớp cơ sở được giới hạn theo tỷ lệ 2x và 1.5x (tức là lớp nâng cao có độ phân giải gấp 2 hoặc gấp 1.5 lần lớp cơ sở).
- Chú ý rằng các giá trị trọng số tỷ lệ được sử dụng trong giải thuật mà bài báo đề xuất thu được từ quá trình huấn luyện với các video sử dụng trong quá trình.
- video thì hàm trọng số tỷ lệ thu được chỉ mang tính cục bộ.
- Cấu hình dự đoán trong ảnh toàn phần.
- A Traffic 1280x800 2560x1600 Tỷ lệ khung ảnh 2x.
- PeopleOnStreet 1280x800 2560x1600 Tỷ lệ khung ảnh 2x.
- Kimono 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- 1280x720 1920x1080 Tỷ lệ khung ảnh 1.5x.
- ParkScene 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Cactus 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- 1280x720 1920x1080 Tỷ lệ khung ảnh 1.5x BasketballDrive 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- BQTerrace 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- 1280x720 1920x1080 Tỷ lệ khung ảnh 1.5x Bảng 2: Các Video dùng trong quá trình huấn luyện dữ liệu.
- A Nebuta 1280x800 2560x1600 Tỷ lệ khung ảnh 2x.
- SteamLocomotive 1280x800 2560x1600 Tỷ lệ khung ảnh 2x.
- Blue Sky 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Tennis 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Riverbed 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Troy 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Station 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Pedestrian Area 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Rush Hour 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- Tractor 960x540 1920x1080 Tỷ lệ khung ảnh 2x.
- 1280x720 1920x1080 Tỷ lệ khung ảnh 1.5x 4.2 Hiệu suất của thuật toán đề xuất.
- tỷ lệ bit.
- Ví dụ, hiệu suất mã hóa là nhỏ nhất với video ParkScene, chỉ tăng 0.3% và 0.1% lần lượt cho các tỷ lệ khung là 2x và 1.5x.
- Còn đối với video BasketballDrive, tỷ lệ này là khá cao dao động trong khoảng từ 2.4%.
- và 1.5% cho các tỷ lệ khung 2x và 1.5x.
- Sự cải thiện trong tỷ lệ bit của giải thuật đề xuất đi kèm với sự tăng đáng kể thời gian mã hóa.
- Cấu hình dự đoán trong ảnh, tỷ.
- lệ khung 2x Cấu hình dự đoán trong ảnh, tỷ lệ khung 1.5x.
- Giải thuật WIP cũng cho thấy các xu hướng tương tự với tỷ lệ BD-rate trung bình.
- Trong tất cả các giải thuật trong bảng so sánh thì giải thuật đề xuất tuy có sự cải thiện đáng kể nhất về tỷ lệ bit nhưng cũng có thời gian giải mã và mã hóa cao nhất (chủ yếu do độ phức tạp của thuật toán khi phải phân tích các khối ở hai phân lớp ra thành các thành phần AC và DC, sau đó tổng hợp các thành phần này lại với các trọng số tỷ lệ tối ưu tìm được từ quá trình huấn luyện dữ liệu)..
- Bảng 4: So sánh hiệu suất mã hóa giữa thuật toán đề xuất và các giải thuật đề xuất trước đó Cấu hình dự đoán trong ảnh toàn.
- phần, tỷ lệ khung 2x.
- Cấu hình dự đoán trong ảnh toàn phần, tỷ lệ khung 1.5x.
- Trong bài báo này, chúng tôi đã giới thiệu một giải thuật mới để kết hợp khối đã được dự đoán bằng kỹ thuật dự đoán trong ảnh tại lớp nâng cao.
- với khối tương ứng được xây dựng lại từ lớp cơ sở với mục đích cải thiện kết quả dự đoán khối tại lớp nâng cao trong khuôn khổ của mô hình TextureRL..
- Giải thuật đề xuất cung cấp một tỷ lệ giảm BD-rate từ 0,5 đến 1,0% so với SHM1.0 và sự cải thiện lên đến 0,7 đến 0,8% so với các giải thuật đề xuất trước đó