« Home « Kết quả tìm kiếm

Cơ sở dữ liệu đa phương tiện: Oracle Multimedia


Tóm tắt Xem thử

- Cơ sở dữ liệu đa phương tiện: Oracle Multimedia Võ Tấn Khoaa.
- a Học Viên Cao Học, ĐH Công Nghệ Thông Tin ĐH Quốc Gia TP HCM,Ngành CNTT, MSHV: CH1301094 b Học Viên Cao Học, ĐH Công Nghệ Thông Tin ĐH Quốc Gia TP HCM,Ngành CNTT, MSHV: CH1302006 Tóm tắt Mục đích của bài báo là tìm hiểu đặc điểm, tính chất của cơ s dữ liệu (CSDL) đa ph ơng tiện, tập trung vào cấu trúc cơ bản và nguyên lý làm việc của Oracle trên cơ s dữ liệu đa ph ơng tiện tiện nh hình ảnh, audio, video.
- đi vào trọng điểm là cách thức l u trữ xử lý đối t ợng dữ liệu hình ảnh.
- Mục tiêu là nắm bắt các kiểu dữ liệu đa ph ơng tiện hỗ trợ đồng th i khai thác cách sử dụng các hàm, các ph ơng thức của Oracle Multimedia (Oracle interMedia) để xây dựng các ứng dụng về l u trữ, xử lý các dữ liệu đa ph ơng.
- Song song với việc bao quát các đặc điểm, cấu trúc và tính năng các ph ơng thức của Oracle Multimedia (OM) trên các kiểu dữ liệu đa ph ơng tiện, bài báo sẽ đ a ra những đánh giá về khả năng hỗ trợ của Oracle so với nhu cầu, đòi hỏi cần có của một CSDL đa ph ơng tiện.
- CSDL đa ph ơng tiện, oracle multimedia database.
- Mở đầu Sự bùng nổ khối l ợng lớn các kiểu dữ liệu đa dạng dẫn đến nhu cầu l u trữ xử lý dữ liệu ngày càng tăng.
- Đặc biệt, với tính chất dữ liệu lớn và khó xử lý, thao tác hơn của các loại dữ liệu đa ph ơng tiện nh hình ảnh, âm thanh, video trong rất nhiều loại ứng dụng mới đặt ra vấn đề cần có một CSDL có khả năng hỗ trợ mạnh mẽ việc l u trữ và xử lý trên loại dữ liệu này.
- Với sự ra phát hành phiên bản Oracle 10g, hệ quản trị cơ s dữ liệu Oracle cung cấp tính năng Oracle interMedia, đư có thể thao tác với dữ liệu đa ph ơng tiện đáp ứng nhu cầu l u trữ, xử lý phân tích các dạng dữ liệu đa ph ơng tiện của ng i dùng.
- Trong nội dung bài trình bày này, nhóm chúng tôi sẽ đ a ra một cái nhìn tổng quan về các dạng kiểu dữ liệu khác nhau đ ợc dùng để l u trữ dữ liệu đa ph ơng tiện, cũng nh cách thức hoạt động của những ph ơng thức, các hàm xử lý dữ liệu đa ph ơng tiện đ ợc hỗ trợ b i Oracle khi thao tác trên những kiểu dữ liệu này.
- Các yêu cầu của một hệ quản trị CSDL đa phương tiện Dữ liệu sinh ra ngày càng nhiều, không chỉ bao gồm dữ liệu số, chuỗi mà còn cả dữ liệu có cấu trúc, không có cấu trúc và đặc biệt là dữ liệu đa ph ơng tiện (văn bản, hình ảnh, video, audio.
- Các đặc trưng của CSDL đa phương tiện: Do CSDL đa ph ơng tiện là sự tổng hợp của nhiều dữ liệu đa ph ơng tiện khác nhau nên nó có những đặc tr ng nổi bật nh sau.
- Thiếu cấu trúc (lack of structure): CSDL đa ph ơng tiện th ng không có cấu trúc, do đó các tác vụ chuẩn trên CSDL truyền thống nh chỉ số hóa, tìm kiếm nội dung, truy xuất dữ liệu có thể không thực hiện đ ợc.
- Dung l ợng l u trữ lớn (massive volume): các dữ liệu video và âm thanh th ng đòi hỏi các thiết bị l u trữ có dung l ợng lớn.
- Các ứng dụng, cơ chế hỗ trợ (logistics): các kiểu dữ liệu phi chuẩn có thể đòi hỏi các quy trình, công cụ xử lý phức tạp nh việc sử dụng các thuật toán nén dữ liệu đối với các ứng dụng CSDL đa ph ơng tiện.
- Tel E-mail address: [email protected] 1 Võ Tấn Khoa, Phan Thế Duy Hiện tại, không phải bất kì loại CSDL nào cũng hỗ trợ đầy đủ việc l u trữ và rút trích thông tin trên tất cả những dạng dữ liệu vừa đề cập.
- Thông qua một hệ quản trị CSDL, chúng ta phải đạt đ ợc mục đích có thể tổ chức cấu trúc dữ liệu để l u trữ và đảm bảo khả năng xử lý, truy vấn, thực hiện giao dịch đồng th i các khối dữ liệu lớn một cách hiệu quả.
- Tuy nhiên, nếu chúng ta muốn l u trữ và thực hiện các truy vấn xử lý bao gồm cả kiểu dữ liệu đa ph ơng tiện, thì một CSDL sẽ gặp một số tr ngại nhất định nh : khối l ợng rất lớn và đa dạng, dữ liệu đa ph ơng tiện có cấu trúc hoàn toàn khác so với các kiểu cấu trúc dữ liệu cơ bản, và nó không thích hợp với việc truy vấn, tìm kiếm một cách rõ ràng dựa trên nội dung.
- Khả năng l u trữ lớn: các đối t ợng dữ liệu đa ph ơng tiện có thể đ ợc l u trữ và sử dụng lại b i các giao tác khác.
- Đảm bảo tính toàn vẹn dữ liệu: đảm bảo tính thống nhất cơ s dữ liệu giữa các giao tác.
- Khả năng phục hổi, rollback dữ liệu.
- Hỗ trợ truy vấn đa ph ơng tiện: cho phép dễ dàng truy vấn dữ liệu đa ph ơng tiện.
- Có giao diện đa ph ơng tiện và t ơng tác.
- Các kiểu dữ liệu đa phương tiện và một số phương thức trong Oracle interMedia 10g Oracle Multimedia (OM) hay còn gọi là Oracle interMedia, là một tính năng cho phép CSDL Oracle l u trữ, quản lý và truy xuất hình ảnh, video, âm thanh, hoặc các dữ liệu media hỗn hợp.
- OM thừa kế độ tin cậy, tính sẵn có, và khả năng quản lý dữ liệu của CSDL Oracle đối với nội dung đa ph ơng tiện.
- Điều này có nghĩa là, ngoài vai trò truyền thống của mình trong việc quản lý an toàn và hiệu quả dữ liệu quan hệ, nó còn cung cấp sự hỗ trợ cho các khái niệm về nhiều loại đối t ợng khác nhau, bao gồm tất cả các dữ liệu liên quan với các đối t ợng và các ph ơng thức có thể đ ợc thực hiện trên chúng.
- OM cung cấp các cơ chế để them các cột hay đối t ợng chứa dữ liệu hình ảnh, âm thanh, video hay các dữ liệu media hỗn hợp khác vào các bảng sẵn có, chèn vào và lấy ra các dữ liệu đa ph ơng tiện.
- Điều này cho phép các nhà thiết kế CSDL m rộng các CSDL hiện có với dữ liệu đa ph ơng tiện hoặc xây dựng các ứng dụng CSDL đa ph ơng tiện mới dành cho ng i dùng cuối.
- OM sử dụng các loại đối t ợng, t ơng tự nh các lớp Java hay C++ để mô tả dữ liệu đa ph ơng tiện.
- Một thể hiện của các loại đối t ợng này bao gồm các thuộc tính, siêu dữ liệu metadata, dữ liệu media, và các ph ơng thức.
- Dữ liệu media chính là các dữ liệu âm thanh, hình ảnh, video hoặc các loại dữ liệu hỗn hợp khác.
- Siêu dữ liệu là thông tin về dữ liệu, chẳng hạn nh độ dài l u trữ đối t ợng, kiểu nén, hoặc định dạng.
- Các đối t ợng trong OM có một mô hình l u trữ dữ liệu media chung.
- Các thành phần dữ liệu media của các đối t ợng này có thể đ ợc l u trữ trong CSDL, trong đối t ợng kiểu BLOB d ới sự kiểm soát giao dịch (transaction).
- Các dữ liệu media cũng có thể đ ợc l u trữ bên ngoài CSDL mà không nằm trong sự quản lý các giao dịch.
- Trong tr ng hợp này, một con trỏ đ ợc l u trữ trong CSDL d ới sự quản lý giao dịch và các dữ liệu media đ ợc l u trữ trong.
- Một nguồn do ng i dùng xác định trên một máy chủ dữ liệu đa ph ơng tiện chuyên biệt, hoặc một máy chủ khác.
- Siêu dữ liệu (metadata) đ ợc l u trữ trong CSDL d ới sự kiểm soát của OM.
- Dù cho dữ liệu media đ ợc l u trữ bên trong hay bên ngoài CSDL, OM đều quản lý siêu dữ liệu cho tất cả các loại media và có thể tự động trích xuất siêu dữ liệu cho âm thanh, hình ảnh và video.
- Siêu dữ liệu này bao gồm các thuộc tính nh sau.
- L u trữ thông tin về âm thanh, hình ảnh, video hay các kiểu dữ liệu multimedia hỗn hợp khác, bao gồm loại nguồn, đ ng dẫn, tên nguồn và dữ liệu đ ợc l u trữ cục bộ (trong CSDL) hay bên ngoài.
- Cập nhật thông tin nhưn th i gian cho hình ảnh, âm thanh, video hoặc các dữ liệu media hỗn hợp.
- Mô tả dữ liệu âm thanh, video (description.
- Định dạng của dữ liệu đa ph ơng tiện.
- Kiểu MIME ((Multi-Purpose Internet Mail Extension) của dữ liệu đa ph ơng tiện.
- Các diêu dữ liệu trích xuất từ cấu trúc XML, nh đạo diễn, nhà sản xuất của bộ phim, video.
- Oracle Multimedia là một tập hợp các tính năng dành cho dữ liệu đa ph ơng tiện bao gồm một số loại đối t ợng ORDAudio, ORDDoc, ORDImage, ORDImageSignature, ORDVideo cùng với một tập hợp nhiều ph ơng thức để có thể.
- L u trữ, thực hiện nhiều thao tác trên các loại dữ liệu đa ph ơng tiện.
- Trích xuất thông tin, đặc điểm, thuộc tính hay các dữ liệu metadata từ dữ liệu đa ph ơng tiện.
- Truy vấn, quản lý các kiểu dữ liệu đa ph ơng tiện từ Oracle interMedia, hay các máy chủ web.
- Trong đó, loại đối t ợng ORDSource và các ph ơng thức của nó đ a ra cách tiếp cận tập trung xử lý, thao tác trực tiếp nguồn dữ liệu đa ph ơng tiện.
- Các kiểu đối t ợng ORDAudio, ORDDoc, ORDImage, ORDImageSignature, ORDVideo đều chứa một thuộc tính là kiểu dữ liệu ORDSource.
- ORDAudio: loại đối t ợng cho các dữ liệu âm thanh, audio.
- ORDVideo: loại đối t ợng dành cho các dữ liệu phim, video.
- ORDImage: kiểu dữ liệu đặc tr ng trong việc l u trữ, thao tác dữ liệu hình ảnh.
- ORDSource hỗ trợ truy cập đến nhiều loại dữ liệu đa ph ơng tiện, có thể truy cập tới các nguồn dữ liệu nh.
- truy cập ra bên ngoài từ các nguồn dữ liệu định nghĩa b i ng i dùng (user-defined source) trên server khác.
- localData: l u trữ cục bộ dữ liệu đa ph ơng tiện trong BLOB.
- srcType: loại nguồn dữ liệu.
- srcLocation: nơi l u trữ nguồn dữ liệu dựa trên srcType.
- srcName: tên đối t ợng nguồn dữ liệu.
- updateTime: th i điểm cập nhật nguồn dữ liệu gần nhất.
- Một số ph ơng thức.
- dùng để gán giá trị của biến c local thành 0, nghĩa là dữ liệu đ ợc l u trữ bên ngoài phạm vi cơ s dữ liệu.
- trả về số byte chiều dài của nguồn dữ liệu.
- ph ơng thức này cho kết quả là giá trị nội dung hay BLOB chứa dữ liệu của localData.
- 3.2 ORDImage: Kiểu đối t ợng ORDImage hỗ trợ việc l u trữ, xử lý, thao tác trên những dữ liệu hình ảnh trong một CSDL.
- source: nguồn của dữ liệu hình ảnh đ ợc l u trữ.
- compressionFormat: thuật toán nén đư đ ợc dung trong dữ liệu hình ảnh.
- Ví dụ: Kh i tạo một thể hiện của kiểu dữ liệu ORDImage BEGIN INSERT INTO pm.online_media (product_id, product_photo) VALUES (3501, ORDSYS.ORDImage.init.
- Hàm kh i tạo init(srcType,srcLocation,srcName): đ ợc sử dụng khi kh i tạo một đối t ợng kiểu dữ liệu hình ảnh  Cấu trúc: ORDImage.
- Chuyển dữ liệu hình ảnh từ nguồn dữ liệu ảnh bên ngoài vào thuộc tính localData  Cấu trúc: (embedded ORDSource object) bên trong CSDL import(ctx IN OUT RAW.
- chuyển dữ liệu ảnh đ ợc chỉ định rõ ràng bên ngoài vào thuộc tính ORDSource.localData: source_type: dạng của ảnh nguồn, source_name: tên của ảnh nguồn, source_location: vị trí mà ảnh nguồn đ ợc l u trữ  Ví dụ: Import dữ liệu ảnh từ nguồn dữ liệu ảnh bên ngoài vào local source trong CSDL: 4 Võ Tấn Khoa, Phan Thế Duy DECLARE obj ORDSYS.ORDImage.
- 3.3 ORDImageSignature: ORDImageSignature là kiểu đối t ợng đ ợc dùng để hỗ trợ vấn đề tìm kiếm, so khớp dữ liệu hình ảnh dựa trên nội dung (content-based retrieval).
- ph ơng thức này dùng để kh i tạo một đối t ợng ORDImageSignature, kiểu dữ liệu trả về là ORDImageSignature.
- ORDVideo: ORDVideo tích hợp l u trữ, trích xuất và quản lý dữ liệu video số hóa trong một CSDL.
- ORDVideo có thể l u trữ và truy xuất dữ liệu video của bất kỳ định dạng dữ liệu nào đ ợc hỗ trợ.
- Tự động trích xuất siêu dữ liệu từ dữ liệu video của nhiều dạng video phổ biến.
- compressionType: định dạng nén đư đ ợc dùng trong dữ liệu video.
- numberOfColors: số l ợng màu sắc trong dữ liệu video.
- bitRate: bit rate của video, một thuật ngữ chỉ khối l ợng dữ liệu đ ợc truyền trong một khoảng th i gian nhất định, những đơn vị dùng để đo l ng bitrate th ng là kbit/s (kilobit trên giây) và Mbps (megabit trên giây).
- Bitrate là l ợng dữ liệu chuyển từ file film lên CPU trong 1 giây để xử lý giải mư thành hình ảnh và âm thanh.
- Chuyển dữ liệu video từ nguồn dữ liệu đ ợc chỉ định sẵn bên ngoài vào thuộc tính localData  Cấu trúc: (embedded ORDSource object) bên trong CSDL importFrom(ctx IN OUT RAW, source_type IN VARCHAR2, source_location IN VARCHAR2, source_name IN VARCHAR2).
- chuyển dữ liệu video đ ợc chỉ định rõ ràng bên ngoài vào thuộc tính ORDSource.localData: source_type: dạng của file video nguồn, source_name: tên của video nguồn, source_location: vị trí mà video nguồn đ ợc l u trữ  Ví dụ: DECLARE obj ORDSYS.ORDVideo.
- Lưu trữ, truy vấn và nạp dữ liệu đa phương tiện Dữ liệu đa ph ơng tiện nên đ ợc nạp vào CSDL để tận dụng u thế về độ tin cậy, khả năng m rông, tính sẵn có và khả năng quản lý dữ liệu.
- Để đ a dữ liệu multimedia vào CSDL với số l ợng lớn, chúng ta có thể dung SQL* Loader, một tiện ích của Oracle cho phép nạp dữ liệu, và trong tr ng hợp này, dữ liệu đa ph ơng tiện từ các tập tin multimedia bên ngoài đ ợc đ a vào một bảng của một CSDL chứa các cột thuộc kiểu đối t ợng t ơng ứng trong OM.
- u điểm của SQL* Loader là nó rất dễ dàng tạo ra và kiểm tra tập tin kiểm soát hoạt động nạp dữ liệu của ng i sử dụng.
- Các đối t ợng OM nh ORDAudio, ORDImage, ORDVideo, ORDDoc cung cấp tập các ph ơng thức bao gói để thực hiện các vấn đề l u trữ dữ liệu đa ph ơng tiện.
- Thiết lập nguồn dữ liệu là cục bộ hay bên ngoài.
- Thiết lập thông tin về các kiểu nguồn bên ngoài, vị trí và tên của dữ liệu.
- Chuyển dữ liệu vào hoặc ra khỏi CSDL.
- Lấy ra các thông tin về nội dung dữ liệu cục bộ nh chiều dài, vị trí của nó.
- Truy cập nguồn dữ liệu bằng cách m , đọc, ghi, cắt xén hay đóng lại.
- Khi đ ợc l u trữ trong một CSDL, dữ liệu multimedia có thể đ ợc truy vấn bằng cách sử dụng các cột chữ hoặc số khác nhau hoặc các thuộc tính đối t ợng của bảng để tìm một hàng có chứa dữ liệu mong muốn.
- Dữ liệu đa ph ơng tiện có thể đ ợc truy vấn theo các siêu dữ liệu đ ợc trích xuất, theo các cột trong bảng khác và theo nội dung chẳng hạn nh truy xuất dựa vào nội dung hình ảnh.
- Kết luận Cho đến th i điểm hiện tại, chúng ta ch a khai thác đ ợc hết các dữ liệu đa ph ơng tiện vì đặc tính dung l ợng lớn và khó trích xuất đặc tr ng từ các dạng dữ liệu này.
- thao tác đồng th i trên khối dữ liệu rất lớn, tốn nhiều tài nguyên và th i gian.
- th i điểm này, nếu l u trữ multimedia trong CSDL quan hệ sẽ gây ra vấn đề giảm tốc độ xử lý, không thể thao tác nhiều và chi tiết trên bộ dữ liệu đa ph ơng tiện của CSDL đó.
- Tuy nhiên, chúng ta có thể sử dụng mô hình CSDL quan hệ đối t ợng hoặc mô hình CSDL h ớng đối t ợng để thao tác l u trữ, truy vấn dễ dàng hơn phần nào khi làm việc với dữ liệu đa ph ơng tiện.
- Hệ quản trị CSDL Oracle với tính năng interMedia là sản phẩm điển hình trong vấn đề l u trữ và xử lý hiệu quả các dạng dữ liệu multimedia với khối l ợng lớn