« Home « Kết quả tìm kiếm

Một số vấn đề về thiết kế cơ sở dữ liệu phân tán


Tóm tắt Xem thử

- NGUYỄN PHÚ BèNH NHẬN DẠNG TIẾNG NểI TIẾNG VIỆT SỬ DỤNG MỨC DƯỚI TỪ LUẬN VĂN THẠC SỸ CHUYấN NGÀNH: XỬ Lí THễNG TIN VÀ TRUYỀN THễNG Hà Nội – 2004 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI.
- NGUYỄN PHÚ BèNH NHẬN DẠNG TIẾNG NểI TIẾNG VIỆT SỬ DỤNG MỨC DƯỚI TỪ LUẬN VĂN THẠC SỸ CHUYấN NGÀNH: XỬ Lí THễNG TIN VÀ TRUYỀN THễNG NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.
- TRỊNH VĂN LOANG Hà Nội – 2004 1 Mục lục Trang phụ bìa Trang Lời nói đầu Ch-ơng I: Tổng quan về CSDL phân tán .
- CSDL phân tán và h-ớng phát triển của CSDL phân tán Xu h-ớng phát triển .
- CSDL phân tán .
- Những đặc tr-ng cơ bản của hệ phân tán .
- Hệ quản trị CSDL phân tán Phân lớp các hệ quản trị CSDLPT .
- Phân loại các CSDLPT không theo kiến trúc Ch-ơng II : Thiết kế cơ sở dữ liệu phân tán .
- Khung thiết kế CSDL phân tán .
- Thiết kế CSDLPT Top-down và Bottom-up Thiết kế theo phân đoạn dữ liệu Tổng quan về phân đoạn (phân mảnh .
- Phân đoạn ngang, dọc và lai ghép Thiết kế phân đoạn dữ liệu .
- Sự sắp chỗ các đoạn Điều kiện chung của sắp chỗ đoạn Tính toán chi phí và sự tiện lợi của sắp chỗ đoạn Thiết kế cơ sở dữ liệu phân tán không thuần nhất .
- Giới thiệu thiết kế CSDL phân tán không thuần nhất .
- Sự hợp nhất sơ đồ .
- Mô hình dữ liệu logic D-DBS .
- Kết luận Ch-ơng IV: ứng dụng xử lý song song trong thiết kế CSDLPT .
- Kết luận Kết quả và kiến nghị về luận văn Tài liệu tham khảo 3 Lời nói đầu Lịch sử của hệ phân tán bắt nguồn từ sự phát triển của máy tính đa ng-ời dùng (MultiUser), các mạng máy tính vào những năm 1960 và đ-ợc kích thích phát triển nhờ những trạm làm việc cá nhân giá thành thấp, các mạng LAN và hệ điều hành UNIX trong những năm 1970.
- Việc ra đời mạng LAN tốc độ cao vào những năm 1970 đã tác động đến sự phát triển hệ phân tán.
- Các trạm làm việc và các Server đã quyết định sự ra đời của hệ phân tán.
- Khuynh h-ớng này còn đ-ợc thúc đẩy nhờ việc phát triển phần mềm hệ điều hành và các ứng dụng phân tán.
- Hệ CSDLPT có phạm vi ứng dụng rất rộng, từ cung cấp các tiện ích tính toán dùng cho mục đích chung của nhiều nhóm ng-ời sử dụng đến các hệ thống truyền thông đa ph-ơng tiện, hệ thống thu ngân hàng tự động...Hiện nay, đã có nhiều nghiên cứu phát triển về thiết kế các CSDLPT, và các ứng dụng của chúng ngày càng hiệu quả hơn.
- Hệ cơ sở dữ liệu phân tán (Distributed Database Sytsem) đ-ợc xây dựng dựa trên hai công nghệ cơ bản là cơ sở dữ liệu và mạng máy tính.
- Hệ cơ sở dữ liệu phân tán đ-ợc mô tả nh- là tập hợp nhiều cơ sở dữ liệu có liên quan Logic đến nhau và đ-ợc phân bố trên mạng máy tính .
- Do CSDL (cơ sở dữ liệu) cổ điển chịu sức ép từ ng-ời sử dụng, nên giải pháp là xây dựng hệ CSDLPT.
- CSDLPT giảm đ-ợc chi phí truyền thông, thời gian đáp ứng nhanh, đảm bảo tính độc lập dữ liệu, tránh d- thừa dữ liệu, cho phép nhiều user dùng chung CSDLPT, chia sẻ tài nguyên dùng chung trong hệ phân tán.
- Luận văn của em xin đ-ợc phép trình bày cơ sơ lý thuyết và ph-ơng pháp thiết kế CSDL phân tán • Tổng quan về CSDLPT • Thiết kế CSDLPT 4 • Thiết kế CSDLPTvới cấu trúc Client- Server ba lớp • ứng dụng xử lý song song trong thiết kế CSDLPT.
- Hà Nội, Ngày 16 tháng 12 năm 2004 5 Ch-ơng I : Tổng quan về CSDL phân tán 1.1 CSDL phân tán và h-ớng phát triển của CSDL phân tán 1.1.1.
- Xu h-ớng phát triển Trong những năm gần đây, CSDL phân tán đã trở thành một lĩnh vực quan trọng của công nghệ thông tin.
- Có nhiều nguyên nhân thúc đẩy dẫn đến sự phát triển của các hệ CSDL phân tán.
- Cơ cấu tổ chức và kinh tế cũng là một trong những nguyên nhân của sự phát triển CSDL phân tán.
- Thực tế một số ứng dụng mang tính địa ph-ơng sẽ làm giảm chi phí truyền thông.
- Bởi vậy cực đại hoá tính địa ph-ơng của các ứng dụng là một trong các mục tiêu chính của việc thiết kế CSDL phân tán.
- Vấn đề này có thể thích hợp với bất kỳ hệ đa xử lý nào chứ không chỉ với CSDL phân tán.
- Mặc dù vậy CSDL phân tán có thuận lợi trong phân tích dữ liệu phản ánh điều kiện phụ thuộc của ứng dụng.
- Công việc đ-ợc phân chia giữa các bộ xử lý khác nhau, và tránh đ-ợc những tắc nghẽn nguy hiểm trong mạng truyền thông hoặc các dịch vụ chung của toàn hệ thống.
- Sự phân tán dữ liệu phản ánh hiệu quả làm tăng tính địa ph-ơng của các ứng dụng.
- Cách tiếp cận với CSDL phân tán, đặt biệt với dữ liệu d- thừa, cũng đ-ợc sử dụng để có độ tin cậy và sự sẵn dùng cao hơn.
- Những hỏng hóc trong CSDL phân tán có thể xẩy ra nhiều hơn vì có số thành phần cấu thành lớn hơn, nh-ng ảnh h-ởng của mỗi hỏng góc đó chỉ giới hạn ở những ứng dụng có dùng dữ liệu của trạm bị h- hỏng.
- CSDL phân tán là sự tập hợp các dữ liệu thuộc cùng một hệ thống về mặt logic nh-ng trải ra ở các trạm của máy tính.
- Cơ sở dữ liệu phân tán.
- Công nghệ CSDL phân tán là sự kết hợp của hai vấn đề : Phân tán và hợp nhất • Phân tán : phân tán dữ liệu trên các trạm của mạng.
- Hợp nhất : Hợp nhất về mặt logic các dữ liệu phân tán sao cho chúng xuất hiện với ng-ời sử dụng nh- CSDL đơn lẻ thuần nhất.
- CSDL phân tán có thể đ-ợc định nghĩa nh- một bộ s-u tập, hợp nhất về mặt logic của các dữ liệu phân tán đ-ợc dùng chung trên các trạm của mạng Có thể định nghĩa CSDL phân tán một cách điển hình nh- sau: CSDL phân tán là một tập các dữ liệu về mặt logic thuộc cùng một hệ thống nh-ng trải ra trên các trạm của mạng máy tính.
- Trong đó: Tính phân tán, thực tế dữ liệu không c- trú ở cùng một trạm, vì vậy ta có thể thấy đ-ợc đặc điểm cơ bản của CSDL phân tán.
- Sự t-ơng quan logic, các dữ liệu có một số tính chất rằng buộc lẫn nhau, và nh- vậy có thể phân biệt CSDL phân tán với các CSDL đia ph-ơng hoặc với các tệp c- trú ở các trạm khác nhau trên mạng.
- Những đặc tr-ng cơ bản của hệ phân tán.
- Hệ phân tán mang tính hữu dụng là nhờ 6 đặc tính chủ yếu đó là : Chia sẻ tài nguyên, tính mở, tính đồng thời, tính quy mô, tính chịu lỗi và tính trong suốt.
- Trong đó những đặc tính này không phải là kết quả tự nhiên của sự phân tán, mà là do thiết kế của hệ thống và phần mềm ứng dụng.
- Chia sẻ tài nguyên Tài nguyên bao gồm những thành phần phần cứng nh-: Đĩa, máy in, và những thành phần phần mềm nh-: file, cơ sở dữ liệu và những đối t-ợng khác.
- Đây là đặc tr-ng cơ bản nhất của hệ phân tán và nó có ảnh h-ởng mạnh mẽ đến các kiến trúc phần mềm đ-ợc sử dụng trong hệ phân tán.
- Tài nguyên 7 trong hệ phân tán đ-ợc l-u trữ trong một số máy tính và các máy tính khác chỉ có thể truy nhập chúng thông qua truyền thông (communication).
- Hệ thống ch-ơng trình quản lý việc chia sẻ tài nguyên đ-ợc gọi là Reource Mannager.
- Mô hình Client/Server hiện là mô hình tốt nhất đ-ợc sử dụng rộng rãi cho hệ phân tán.
- Tính mở (Openness) Tính mở của hệ thống máy tính là đặc tr-ng để xác định xem hệ thống có thể mở rộng theo nhiều cấp độ khác nhau hay không.
- Tính mở hoặc đóng của hệ thống đ-ợc xét dựa vào khả năng hỗ trợ việc mở rộng của thiết bị phần cứng (ví dụ: Bổ sung các thiết bị ngoại vi, bộ nhớ và các giao diện truyền thông) và hỗ trợ việc mở rộng các phần mềm, nh.
- Các tiến trình cung cấp cơ chế thực hiện đồng thời các ch-ơng trình Tóm lại :Trong các hệ thống mở, những giao diện chính của chúng đều đ-ợc công bố.
- Tính mở của hệ phân tán dựa trên việc cung cấp cơ chế truyền thông giữa các tiến trình một cách thống nhất và công khai các giao diện truy cập và tài nguyên chung.
- Hệ phân tán có thể xây dựng từ các phần cứng và phần mềm không đồng nhất.
- Tuy nhiên, cần phải kiểm tra các thành phần đó có tuân theo tiêu 8 chuẩn đã công bố hay không, giúp ng-ời sử dụng không phải giải quyết các vấn đề hợp nhất của hệ thống.
- Hệ phân tán dựa trên mô hình chia sẻ tài nguyên nh- mô tả ở trên, có nhiều cơ hội để thực hiện song song với hai lý do : Nhiều ng-ời sử dụng đồng thời gọi tới lệnh hoặc t-ơng tác với các ch-ơng trình ứng dụng .
- Tr-ờng hợp (1) xuất hiện do một hoặc nhiều tiến trình ứng dụng đang chạy đại diện cho một ng-ời sử dụng đang hoạt động.
- Trong phần lớn các kiến trúc của hệ phân tán, các tiến trình ứng dụng chạy trong trạm làm việc của ng-ời sử dụng và chúng không xung đột với tiến trình ứng dụng của những ng-ời sử dụng khác để xử lý tài nguyên.
- Trạm làm việc có nhiều bộ xử lý cho phép ng-ời sử dụng thực hiện các phép tính một cách song song hoặc cho phép thực hiện các trình ứng dụng có khả năng khai thác nhiều bộ xử lý.
- Khi một số ch-ơng trình sử dụng tài nguyên đồng thời truy cập cùng một tài nguyên, thì trình chủ phải đồng bộ hoá các hoạt động của chúng, bảo đảm để chúng không xung đột với nhau.
- Tóm lại, tính đồng thời nảy sinh một cách tự nhiên trong các hệ phân tán, xuất phát từ các hoạt động riêng biệt của ng-ời sử dụng, tính độc lập của tài nguyên và vị trí của các trình chủ nằm ở các máy khác nhau.
- Yêu cầu về tính quy mô trong các hệ phân tán đòi hỏi một thiết kế mà trong đó không có tài nguyên nào (phần cứng hoặc phần mềm) bị coi là tài nguyên cung cấp hạn chế.
- Nh- vậy phải mở rộng hệ thống để đáp ứng yêu cầu phát triển tài nguyên.
- Trong tr-ờng hợp đó, các file phải đ-ợc sao chép lại ở nhiều Server và hệ thống phải đ-ợc thiết kế để sao cho khi các file sao chép đ-ợc cập nhật, thì cập nhật đó đ-ợc áp dụng cho toàn bộ các bản sao.
- Vậy tính co giãn là khả năng thay đổi quy mô: mở rộng hoặc co lại (khả năng thêm, bớt để đáp ứng yêu cầu ng-ời sử dụng.
- Các thiết kế của các hệ máy tính chịu lỗi hiện nay th-ờng sử dụng các ph-ơng pháp sau.
- Dùng d- phần cứng : Sử dụng các thành phần d- để khắc phục lỗi.
- Để tạo ra các hệ thống có khả năng chịu lỗi bằng phần cứng, ng-ời ta th-ờng sử dụng hai máy cho một ứng dụng, một trong hai máy đóng vai trò là máy dự phòng cho máy kia.
- Trong các hệ phân tán, phần d- dự trữ nh- vậy có rất ít chỉ những Server riêng lẻ cần thiết cho việc tiếp tục hoạt động của các ứng dụng quan trọng mới th-ờng phải có phần d- để có thể thay thế.
- Khả năng chịu lỗi, cho phép hệ thống khi gặp những lỗi thông th-ờng thì có thể v-ợt qua đ-ợc.
- Để hệ thống quay trở lại hoạt động bình th-ờng.
- Để phục hồi nhanh tróng, chúng ta phải ghi lại đ-ợc những vết của hệ thống ở những thời điểm khác nhau, để khi gặp lỗi chúng ta có thể quay lại đ-ợc trạng thái không có lỗi ngay tr-ớc đó.
- Tính trong suốt (Transparency) Tính trong suốt chính là việc che dấu không cho ng-ời sử dụng hoặc ng-ời lập trình ứng dụng thấy sự tách biệt giữa các thành phần trong hệ phân tán, và nh- vậy ng-ời sử dụng chỉ thấy hệ phân tán nh- một tổng thể, chứ không phải là tập hợp các thành phần độc lập.
- Tính trong suốt có ảnh h-ởng lớn đến thiết kế các phần mềm của hệ phân tán.
- Khả năng “che giấu” sự tách rời của hệ thống đối với ngời sử dụng và ng-ời lập trình ứng dụng (không che dấu đối với ng-ời lập trình hệ thống).
- Khả năng cho phép nhiều tiến trình hoạt động đồng thời bằng cách chia sẻ các tài nguyên chung mà không làm cản trở, xung đột lẫn nhau.
- Trong suốt lặp (Replication Transparency): Cho phép nhiều bản sao của đối t-ợng thông tin đ-ợc sử dụng để tăng độ tin cậy và hiệu năng của hệ thống.
- Nghĩa là cho phép ng-ời sử dụng làm việc với các đối t-ợng thông tin mà không biết đó là bản sao hay bản gốc.
- Lỗi có thể xẩy ra nh-ng hệ thống có khả năng chịu lỗi và phục hồi nhanh chóng mà ng-ời sử dụng không phát hiện ra.
- Trong suốt di trú (Migration Transparency): Cho phép di chuyển các đối t-ợng thông tin trong hệ thống.
- Trong suốt hiệu năng (Performance Transparency): Cho phép hệ thống có khả năng cấu hình lại để tăng hiệu năng đáp ứng đối với tải của hệ thống (tải = tổng l-u l-ợng của hệ thống truyền đi.
- Trong suốt quy mô (Scaling Transparency): Cho phép hệ thống và các ch-ơng trình ứng dụng mở rộng cấp bậc mà không thay đổi cấu trúc hệ thống hoặc các thuật toán ứng dụng.
- Hệ quản trị CSDL phân tán Là hệ thống phần mềm cho phép quản lý các hệ cơ sở dữ liệu phân tán và làm cho sự phân tán trở nên trong suốt đối với ng-ời sử dụng.
- 1.2.1 Phân lớp các hệ quản trị CSDLPT Kiến trúc ba tầng ANSI-STARC của các hệ quản trị cơ sở dữ liệu tập trung.
- Kiến trúc ba tầng ANSI-STARC Đối với các hệ quản trị cơ sở dữ liệu phân tán kiến trúc này không có hiệu quả.
- Công nghệ và mẫu thử của các hệ quản trị cơ sở dữ liệu phân tán phát triển ít nhiều độc lập đối với mỗi hệ và mỗi hệ làm theo kiến trúc riêng của mình.
- Các hệ cơ sở dữ liệu phân tán chia làm hai loại.
- Hệ QTCSDLPT không thuần nhất * Hệ QTCSDLPT thuần nhất: Gồm nhiều bộ s-u tập dữ liệu.
- Nó hợp nhất các nguồn dữ liệu.
- Nhiều hệ thống quan trọng thuộc loại này.
- Ng-ời sử dụng Ng-ời sử dụng Sơ đồ ngoài Sơ đồ ngoài Sơ đồ quan niệm Sơ đồ mức trong Database Database Database 13 Hình 1.2.
- Phân loại của các hệ phân tán Kiến trúc của hệ QTCSDLPT thuần nhất.
- Một hệ CSDLPT có thể đ-ợc xây dựng dựa trên sự phát triển của kiến trúc ANSI-SPARC, khi đó ta phải thêm CSDLPT địa ph-ơng và các sơ đồ địa ph-ơng.
- Bởi vì phần lớn các hệ thuần nhất không có sơ đồ cục bộ và có giới hạn phần mềm điều khiển dữ liệu ở mức cục bộ.
- Hệ dữ liệu phân tán Hệ dữ liệu phân tán thuần nhất Hệ dữ liệu phân tán không thuần nhất Hệ phân tán tự trị Hệ phân tán không tự trị Hợp nhất theo hệ thống Hợp nhất theo cổng nối Đầy đủ các đặc tính DBMS Bộ phận các đặc tính DBMS Không liên hiệp Liên hiệp Liên hiệp lỏng Liên hiệp chặt Đơn Đa 14 Hình 1.3: Kiến trúc sơ đồ của hệ DDBMs thuần nhất Để điều khiển phân tán ta có thể thêm hai mức nh- hình 1-3 vào kiến trúc ba mức của ANSI-SPARC.
- Sơ đồ phân đoạn mô tả các quan hệ tổng thể đ-ợc phân cho mỗi cơ sở dữ liệu địa ph-ơng nh- thế nào

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt