« Home « Kết quả tìm kiếm

Tối ưu hóa cơ sở dữ liệu phân tán


Tóm tắt Xem thử

- TỐI ƢU HÓA CƠ SỞ DỮ LIỆU PHÂN TÁN.
- Lời đầu tiên, em xin chân thành cảm ơn PGS.TS Đoàn Văn Ban, ngƣời đã trực tiếp hƣớng dẫn, giúp đỡ và tạo mọi điều kiện thuận lợi cho em từ lúc tìm hiểu, định hƣớng cũng nhƣ tìm kiếm tài liệu trong lĩnh vực cơ sở dữ liệu phân tán cho đến lúc hoàn thành luận văn..
- Chƣơng 1: KHÁI QUÁT VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN.
- Cơ sở dữ liệu phân tán.
- Đặc điểm của cơ sở dữ liệu phân tán.
- Kiến trúc cơ bản của CSDL phân tán.
- Hệ quản trị cơ sở dữ liệu phân tán.
- Kiến trúc hệ quản trị CSDL phân tán.
- Thiết kế cơ sở dữ liệu phân tán.
- Các chiến lƣợc phân tán dữ liệu.
- Phân mảnh dữ liệu.
- Chƣơng 2: TỐI ƢU HÓA TRUY VẤN CƠ SỞ DỮ LIỆU PHÂN TÁN.
- Cục bộ hóa dữ liệu phân tán.
- Các thuật toán tối ƣu hóa truy vấn phân tán.
- Thuật toán INGRES phân tán.
- Mô hình phân tán CSDL, công cụ, ngôn ngữ lập trình.
- 2 CSDL Cơ sở dữ liệu.
- (Database Management System) Hệ quản trị cơ sở dữ liệu 5.
- Hình 1.1 Môi trƣờng hệ CSDL phân tán.
- Hình 1.2 Kiến trúc cơ bản của CSDL phân tán.
- Hình 1.5: Phân đoạn hỗn hợp.
- Hình 2.1: Giải pháp A...32.
- Hình 2.2: Giải pháp B.
- Hình 2.3: Sơ đồ truy trình xử lý truy vấn.
- Hình 2.4: Đồ thị truy vấn và Đồ thị nối.
- Hình 2.8: Câu truy vấn gốc.
- Hình 2.9: Câu truy vấn đã rút gọn.
- Hình 2.10: Rút gọn phân mảnh ngang.
- Hình 2.11.
- Hình 2.13: Rút gọn phân mảnh hỗn hợp.
- Hình 2.14: Bộ tối ƣu truy vấn.
- Hình 2.19: Đồ thị nối của truy vấn phân tán.
- Hình 2.20: Đồ thị nối của truy vấn q1.
- Hình 3.1: Mối quan hệ giữa các bảng dữ liệu.
- Hình 3.2: Kết quả thực hiện câu truy vấn tại trạm 1.
- Hình 3.3: Kết quả thực hiện câu truy vấn tại trạm 2.
- Hình 3.4: Kết quả thực hiện câu truy vấn tại trạm 3.
- Hình 3.5: Kết quả thực hiện câu truy vấn tại trạm 1.
- 72 Hình 3.6: Kết quả thực hiện câu truy vấn tại trạm 2.
- Ngày nay, cùng với sự phát triển nhanh chóng của công nghệ thông tin, các ứng dụng cơ sở dữ liệu đã thâm nhập vào mọi hoạt động kinh tế xã hội, quản lý nhà nƣớc và đem lại hiệu quả vô cùng to lớn, góp phần tăng năng suất lao động, đơn giản trong quản lý và cải cách nền hành chính.
- Do đó, dữ liệu không thể lƣu trữ tập trung ở một địa điểm nhất định mà rải khắp các địa điểm mà cơ quan, tổ chức hay doanh nghiệp đó hoạt động.
- Khi dữ liệu không còn lƣu trữ tập trung thì vấn đề làm thế nào để quản lý, tốc độ truy xuất dữ liệu phục vụ cho xử lý công việc không bị ảnh hƣởng, không bị gián đoạn đƣợc đặt ra.
- Cơ sở dữ liệu phân tán ra đời đã giải quyết đƣợc những yêu cầu đó..
- Cơ sở dữ liệu là một trong những lĩnh vực đƣợc quan tâm nhiều trong công nghệ thông tin.
- CSDL phân tán nói riêng và các hệ phân tán nói chung là một lĩnh vực nghiên cứu không mới, nhƣng gần đây cùng với sự phát triển nhanh chóng và mạnh mẽ của công nghệ truyền thông, mạng Internet và đặc biệt là xu thế phát triển của thƣơng mại điện tử, thì CSDL phân tán đã trở thành một lĩnh vực thu hút nhiều sự quan tâm của các nhà nghiên cứu cũng nhƣ các nhà sản xuất phần mềm..
- Một trong các giải pháp có tính khả thi là phải tối ƣu hóa các câu lệnh khi truy vấn dữ liệu..
- Nghiên cứu về tối ƣu hóa truy vấn trong cơ sở dữ liệu phân tán là cần thiết để khai thác có hiệu quả dữ liệu phân tán.
- Do đó, tôi chọn nghiên cứu đề tài “Tối ưu hóa cơ sở dữ liệu phân tán” làm luận văn tốt nghiệp..
- Mục tiêu của luận văn là nghiên cứu các phƣơng pháp thiết kế cơ sở dƣ̃ liê ̣u phân tán, các kỹ thuật tối ƣu hóa câu truy vấn trong cơ sở dữ liệu phân tán, cài đặt thử nghiệm một số thuật toán tối ƣu hóa câu truy vấn trong cơ sở dữ liệu phân tán, từ đó đƣa ra nhận xét, đánh giá ƣu điểm, nhƣợc điểm của từng thuật toán tối ƣu để có lựa chọn phù hợp với từng bài toán thực tế..
- Chƣơng 1: Khái quát về cơ sở dữ liệu phân tán.
- Giới thiệu tổng quan về cơ sở dữ liệu phân tán, phân biệt cơ sở dữ liệu tập trung với cơ sở dữ liệu phân tán để thấy đƣợc sự khác biệt của hai cơ sở dữ liệu này và lợi ích của cơ sở dữ liệu phân tán.
- Tìm hiểu các phƣơng pháp thiết kế cơ sở dữ liệu phân tán, tập trung nghiên cứu các kỹ thuật phân mảnh: phân mảnh ngang, phân mảnh dọc và phân mảnh hỗn hợp..
- Chƣơng 2: Tối ƣu hóa truy vấn cơ sở dữ liệu phân tán.
- trình bày các thuật toán tối ƣu hóa câu truy vấn cơ sở dữ liệu phân tán nhƣ: INGRES phân tán, R*, DP-ACO..
- KHÁI QUÁT VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1.
- Một cơ sở dữ liệu (CSDL) phân tán là một tập dữ liệu có quan hệ logic với nhau, đƣợc phân bố trên các máy tính của một mạng máy tính [11]..
- Tính chất phân tán: Toàn bộ dữ liệu của CSDL phân tán không nằm ở một nơi mà nằm trên nhiều trạm thuộc mạng máy tính..
- Quan hệ logic: Trong CSDL phân tán, dữ liệu có một số đặc tính liên kết với nhau nhƣ tính kết nối, mối quan hệ logic, điều này giúp chúng ta có thể phân biệt một CSDL phân tán với một tập hợp CSDL cục bộ hoặc các tệp nằm tại các vị trí khác nhau trong một mạng máy tính..
- Trong hệ thống cơ sở dữ liệu phân tán gồm nhiều trạm, mỗi trạm có thể khai thác các giao tác truy nhập dữ liệu trên nhiều trạm khác..
- Mỗi máy tính với cơ sở dữ liệu thống kê cục bộ của nó tại mỗi chi nhánh đƣợc đặt ở một vị trí của cơ sở dữ liệu phân tán.
- Ở mức phần cứng vật lý, những nhân tố chính sau là để phân biệt một hệ cơ sở dữ liệu phân tán với hệ cơ sở dữ liệu tập trung:.
- Các trạm này phải đƣợc kết nối bởi một kiểu mạng truyền thông để truyền dữ liệu và những câu lệnh giữa các trạm với nhau, nhƣ Hình 1.1..
- Trong mô hình dữ liệu tập trung, tài nguyên tập trung tại một máy tính.
- Trong hệ thống cơ sở dữ liệu phân tán, cơ sở dữ liệu đƣợc chứa trong nhiều máy tính, các máy tính này đƣợc nối với nhau qua các hệ thống truyền thông, chúng không chia sẻ bộ nhớ chung cũng nhƣ không dùng chung đồng hồ.
- Các bộ xử lý trong hệ thống phân tán có kích cỡ và chức năng khác nhau (chẳng hạn có thể bao gồm các bộ vi xử lý, trạm làm việc, máy tính mini, hay các máy lớn vạn năng).
- Trong hệ thống cơ sở dữ liệu phân tán gồm nhiều trạm thì mỗi trạm có thể truy nhập dữ liệu ở các trạm khác..
- Lợi ích cơ bản nhất của cơ sở dữ liệu phân tán là dữ liệu của các cơ sở dữ liệu vật lý riêng biệt đƣợc tích hợp logic với nhau làm cho nhiều ngƣời sử dụng trên mạng có thể truy nhập đƣợc..
- Cho phép quản lý dữ liệu theo nhiều mức trong suốt: Hệ quản trị cơ sở dữ liệu phải đƣợc trong suốt phân tán theo nghĩa làm cho ngƣời sử dụng không cần biết vị trí của dữ liệu và không cần biết sự phức tạp truy cập qua mạng..
- Khi cơ sở dữ liệu phân tán trên một vài trạm, một trạm có thể có sự cố trong khi các trạm khác vẫn có thể hoạt động hoặc sử dụng các thành phần khác của cơ sở dữ liệu, chỉ trên trạm bị sự cố, dữ liệu và ứng dụng không thể truy cập đƣợc.
- Cải thiện hiệu năng: Một hệ quản trị cơ sở dữ liệu phân tán, phân mảnh cơ sở dữ liệu có thể làm cho dữ liệu đƣợc lƣu trữ tại gần nơi sử dụng nhất.
- Dữ liệu đƣợc lƣu trữ cục bộ làm giảm cạnh tranh CPU, giảm các phục vụ I/O và giảm tƣơng tranh truy nhập trên mạng.
- Dữ liệu đƣợc phân tán tại các trạm nên dung lƣợng dữ liệu cục bộ sẽ nhỏ hơn, các xử lý giao tác và truy vấn cục bộ sẽ đƣợc thực hiện tốt hơn.
- Hơn nữa, trên mỗi trạm có ít các giao tác hơn số giao tác trên cơ sở dữ liệu tập trung, vì vậy cũng tăng hiệu suất hệ thống.
- Tính song song trong các hệ CSDL phân tán có thể nâng cao đƣợc hiệu quả truy nhập.
- Tổ chức dữ liệu phân tán kinh tế hơn so với tổ chức dữ liệu tập trung.
- Hình 1.1 Môi trƣờng hệ CSDL phân tán Mạng truyền thông.
- Chi phí truyền thông cũng ít hơn do việc cục bộ hóa dữ liệu..
- Dễ dàng mở rộng: Việc thêm cơ sở dữ liệu mới, tăng kích cỡ cơ sở dữ liệu hoặc thêm bộ xử lý trong môi trƣờng phân tán là dễ hơn vì cũng chỉ nhƣ là thêm các cơ sở dữ liệu thành phần..
- Bên cạnh những ƣu điểm đã trình bày phần trên, CSDL phân tán có một số nhƣợc điểm sau:.
- Độ phức tạp thiết kế và cài đặt hệ thống tăng: Hệ quản trị cơ sở dữ liệu phân tán phải bổ sung thêm các chức năng nhƣ:.
- Theo dõi dấu vết dữ liệu + Xử lý các truy vấn phân tán + Quản lý giao dịch phân tán + Phục hồi cơ sở dữ liệu phân tán + Quản lý các bản sao.
- Quản lý thƣ mục - catalog phân tán.
- Tăng chi phí: Độ phức tạp tăng đồng nghĩa với chi phí cho việc mua sắm và bảo trì cho hệ quản trị CSDL phân tán tăng so với CSDL tập trung.
- Hơn nữa, hệ quản trị CSDL phân tán còn yêu cầu thêm phần cứng để thiết lập mạng liên kết giữa các trạm làm cho chi phí truyền thông liên tục phát sinh.
- Bảo mật khó khăn: Trong hệ thống tập trung, việc truy cập dữ liệu có thể đƣợc kiểm soát dễ dàng.
- Tuy nhiên, trong hệ quản trị CSDL phân tán không chỉ việc truy cập dữ liệu lặp ở nhiều vị trí đƣợc kiểm soát mà bản thân mạng cũng phải đảm bảo an toàn..
- Kiểm soát tính toàn vẹn khó khăn hơn: CSDL toàn vẹn đề cập đến độ tin cậy và tính nhất quán của dữ liệu đƣợc lƣu trữ.
- Thực hiện các ràng buộc này thƣờng yêu cầu truy cập lƣợng lớn dữ liệu định nghĩa các ràng buộc.
- Đặc điểm của cơ sở dữ liệu phân tán 1.2.1.
- Việc chia sẻ tài nguyên của hệ phân tán đƣợc thực hiện thông qua mạng truyền thông.
- Một hệ phân tán có tính mở là hệ có thể đƣợc tạo ra từ nhiều loại phần cứng và phần mềm của nhiều nhà cung cấp khác nhau theo một tiêu chuẩn chung..
- Tính mở của hệ phân tán đƣợc xem xét theo mức độ bổ sung các dịch vụ dùng chung tài nguyên mà không phá hỏng hay nhân đôi các dịch vụ đang tồn tại.
- Tính mở của hệ phân tán dựa trên việc cung cấp cơ chế truyền thông giữa các tiến trình và công khai các giao diện dùng để truy cập các tài nguyên chung..
- Hệ phân tán hoạt động trên một mạng truyền thông có nhiều máy tính, mỗi máy có thể có một hay nhiều CPU.
- Khả năng làm việc song song trong hệ phân tán đƣợc thực hiện do:.
- Hệ phân tán có khả năng hoạt động tốt và hiệu quả ở nhiều mức khác nhau.
- Một hệ phân tán nhỏ nhất có thể hoạt động chỉ cần hai trạm làm việc và một File Server..
- Điều này chỉ đạt đƣợc mức độ nào đó với hệ phân tán hiện tại.
- Yêu cầu việc mở rộng không chỉ là sự mở rộng về phần cứng, về mạng mà trải trên các khía cạnh khi thiết kế hệ phân tán..
- [1] Nguyễn Văn Nhuận, Phạm Việt Bình (2009), “Giáo trình hệ cơ sở dữ liệu phân tán.
- [2] Phạm Thế Quế (2009), “Giáo trình Cơ sở dữ liệu phân tán”, NXB Thông tin và Truyền thông..
- [3] Nguyễn Bá Tƣờng (2005), ”Nhập môn cơ sở dữ liệu dữ liệu phân tán”, NXB Khoa học và kỹ thuật.