« Home « Kết quả tìm kiếm

Ứng dụng cơ sở dữ liệu song song trong xử lý dữ liệu cuộc gọi


Tóm tắt Xem thử

- ỨNG DỤNG CƠ SỞ DỮ LIỆU SONG SONG TRONG XỬ LÝ DỮ LIỆU CUỘC GỌI.
- ỨNG DỤNG SƠ DỞ DỮ LIỆU SONG SONG TRONG XỬ LÝ DỮ LIỆU CUỘC GỌI.
- Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin.
- 1.1 Giới thiệu.
- 3.1 Giới thiệu.
- 3.3 Mẫu dữ liệu.
- Tên đề tài luận văn: “Ứng dụng cơ sở dữ liệu song song trong xử lý số liệu cuộc gọi.”.
- Với đặc thù của dữ liệu cuộc gọi là số lượng rất nhiều bản ghi dẫn đến việc thực hiện các câu truy vấn đọc dữ liệu trên một tập dữ liệu lớn sẽ mất nhiều thời gian.
- Trong cơ sở dữ liệu nói chung đã có một số biện pháp cho phép đẩy nhanh quá trình đọc dữ liệu như đánh index, khoa ngoại…Nhưng trên một tập dữ liệu lớn các biện pháp trên không khả thi.
- Các câu truy vấn đọc dữ liệu cần được chia thành nhiều câu truy vấn nhỏ và thực hiện trên nhiều máy khác nhau.
- Người dùng sử dụng dịch vụ nhiều dẫn đến phát sinh nhiều dữ liệu của cuộc gọi phục vụ cho mục đích tính cước và đối soát cước..
- Khi khối lượng dữ liệu của hệ thống gia tăng tới một mức độ nhất định (khoảng hàng ngàn Terabyte chẳng hạn), thì việc hệ thống sẽ phải đối mặt với thách thức làm sao để lưu trữ và phân tích dữ liệu..
- Chúng ta không thể lưu một khối dữ liệu rất lớn lên chỉ duy nhất một đĩa cứng vì hai lý do đơn giản.
- Thứ hai, cho dù vượt qua được giới hạn về dung lượng, thì việc truy xuất một khối lượng dữ liệu đồ sộ như vậy một cách tuần tự (vì trên một đĩa đơn) sẽ rất mất thời gian vì giới hạn về tốc độ đọc đĩa.
- Do vậy, bắt buộc chúng ta phải lưu trữ dữ liệu lên trên nhiều đĩa cứng thay vì chỉ một.
- Điều này giúp cái thiện tốc độ truy xuất dữ liệu vì ta có thể tiến hành đọc/ghi một cách song song lên các đĩa..
- Việc lưu trữ dữ liệu phân tán lên nhiều đĩa cứng mang lại lợi thế về khả năng lưu trữ và tốc độ truy xuất dữ liệu.
- Tuy nhiên, việc duy trì một hệ thống phân tán với nhiều đĩa cứng đã dẫn đến một số vấn đề cần được giải quyết.
- Do dữ liệu được lưu trên nhiều phần cứng khác nhau, nên khả năng một (hay nhiều) phần cứng xảy ra hỏng hóc cũng tăng lên đáng kể.
- Một cách giải quyết vấn đề này mà ta có thể thấy ngay, đó là lưu trữ trùng lắp các mẫu dữ liệu lên nhiều đĩa cứng khác nhau.
- thứ hai là việc phân tích dữ liệu đôi khi cần truy đọc dữ liệu từ nhiều đĩa cứng khác nhau..
- Tức là dữ liệu được đọc từ một đĩa có thể cần được kết hợp với dữ liệu từ bất kỳ đĩa nào khác trên hệ thống.
- Các hệ thống phân tán thường cho phép kết hợp dữ liệu từ nhiều nguồn khác nhau, tuy nhiên làm được điều này một cách chính xác là không dễ chút nào..
- Sự bùng nổ về dữ liệu đã đặt ra cho chúng ta những thách thức, thách thức về việc làm thế nào lưu trữ và xử lý tất cả dữ liệu đó.
- Tuy nhiên, ở một mặt khác nó lại mang đến các cơ hội, cơ hội chiếm lĩnh một nguồn thông tin khổng lồ nếu chúng ta có đủ khả năng phân tích và xử lý nguồn dữ liệu đó, biến những dữ liệu thô thành những thông tin hữu ích với một mức chi phí hợp lý..
- Giới thiệu kiến trúc, sức mạnh, và cách tích hợp Oracle với Hadoop để xử lý dữ liệu theo mô hình phân tán..
- HDFS (Hadoop Distributed File System): Hệ thống file phân tán, cung cấp khả năng lưu trữ dữ liệu khổng lồ và tính năng tối ưu hóa việc sử dụng băng thông giữa các node.
- Apache Hbase: Là một cơ sở dữ liệu dạng cột.
- HBase sử dụng HDFS làm hạ tầng cho việc lưu trữ dữ liệu bên dưới và cung cấp khả năng tính toán song song dữ trên MapReduce..
- Apache Pig: Pig là một nền tảng cho việc phân tích dữ liệu lớn bao gồm một ngôn ngữ mức cao để thể hiện các chương trình phân tích dữ liệu, cùng với cơ sở hạ tầng để đánh giá các chương trình này.
- Đặc tính nổi bật của Pig là thực thi chương trình tính toán song song, cho phép xử lý một lượng dữ liệu lớn..
- Apache hive: Hive là một hệ thống data warehouse cho Hadoop để nó có thể dễ dàng tổng kết dữ liệu, truy vấn ad-hoc, và phân tích các bộ dữ liệu lớn được lưu trữ trong HDFS.
- Chukwa: Một hệ thống tập hợp và phân tích dữ liệu.
- Chukwa chạy các collector (các chương trình tập hợp dữ liệu), các collector này lưu trữ dữ liệu trên HDFS và sử dụng MapReduce để phát sinh các báo cáo..
- Apache Zookeeper: Là một dịch vụ tập trung để duy trì thông tin cấu hình, đặt tên,cho phép đồng bộ phân tán và cung cấp các nhóm dịch vụ rất hữu ích cho các hệ thống phân tán.
- NameNode: đóng vai trò là master của hệ thống HDFS, quản lý các metadata của hệ thống HDFS như file system space, danh sách các file hệ thống và các block id tương ứng của từng file, quản lý danh sách slave và tình trạng hoạt động của các DataNode, điều hướng quá trình đọc/ghi dữ liệu từ client lên các DataNode..
- DataNode: chứa các block dữ liệu thực sự của các file trên HDFS, chịu trách nhiệm đáp ứng các yêu cầu đọc/ ghi dữ liệu từ client, đáp ứng các yêu cầu tạo/.
- xóa các block dữ liệu từ NameNode..
- Xueyuan Su (2012), “Oracle In-Database Hadoop: When MapReduce Meets RDBMS”, Computer Science Yale University..
- http://docs.oracle.com/cd/E37231_01/doc.20/e36961/sqlch.htm#BDCUG347 6.
- http://docs.oracle.com/cd/B19306_01/server.102/b14215/et_concepts.htm 7.
- http://docs.oracle.com/cd/E27101_01/doc.10/e27365/directhdfs.htm.
- Nguồn dữ liệu - https://dandelion.eu/datamine/open-big-data/.
- In-Database MapReduce - https://blogs.oracle.com/datawarehousing/entry/in- database_map-reduce.
- Hướng dẫn gọi hàm Java từ cơ sở dữ liệu Oracle.
- https://docs.oracle.com/cd/B19306_01/java.102/b14187/chthree.htm.
- https://docs.oracle.com/cd/B10501_01/java.920/a96659/03_pub.htm 15.
- http://docs.oracle.com/cd/E37231_01/doc.20/e36961/start.htm#BDCUG107 16.
- http://docs.oracle.com/cd/E18283_01/server.112/e17120/tables013.htm