« Home « Kết quả tìm kiếm

Tin - Sinh học


Tóm tắt Xem thử

- Truy cập tìm kiếm dữ liệu thông tin qua internet 3.
- Cơ sở dữ liệu công nghệ sinh học 3.1.
- Đặc điểm của dữ liệu công nghệ sinh học 3.3.
- Một số cơ sở dữ liệu sinh học lớn trên thế giới 3.3.1.
- Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ Sinh học Mỹ 3.3.2.
- Cơ sở dữ liệu EMBL 3.3.3.
- Cơ sở dữ liệu CBI-DDBJ 4.
- Cơ sở xây dựng chương trình xử lý dữ liệu 4.2.
- Tra cứu dữ liệu qua Internet 9.1.
- Khai thác thông tin cơ sở dữ liệu cấu trúc để thiết kế gen 10.1.
- Cơ sở dữ liệu RFLP (Restriction Fragment Length Polymorphism) và cơ sở dữ liệu ESTs (Expressed Sequence Tags) 10.1.1.
- Cơ sở dữ liệu RFLP (Restriction Fragment Length Polymorphism) 10.1.2.
- Cơ sở dữ liệu ESTs (Expresed Sequence Tags) 10.2.
- Khai thác thông tin cơ sở dữ liệu chuỗi trong thiết kế và tách dòng gen 10.2.1.
- Chính các yếu tố trên đã cấu thành nên cơ sở vật chất ban đầu cho các ngân hàng dữ liệu công nghệ sinh học.
- Nguồn dữ liệu cơ sở này, thực tế là các dữ liệu kết quả nghiên cứu thu được của từng cá nhân hay của các cơ sở nghiên cứu rải rác khắp nơi trên thế giới.
- nhìn chung không đủ dung lượng và môi trường để truyền tải hết ý tưởng và dữ liệu kết quả nghiên cứu của các tác giả.
- Kết hợp với khả năng kết nối trao đổi thông tin “vô hạn ” của công nghệ thông tin và internet đã mở ra điều kiện lý tưởng cho các nhà sinh học để cất giữ, liên kết, xử lý và trao đổi kho tàng dữ liệu giữa các thành viên với nhau.
- Nghĩa là Tin-sinh học là ngành nghiên cứu lý thuyết trong sinh học, được thiết lập và hoạt động trên sự liên kết hữu cơ giữa thông tin sinh học – công nghệ xử lý dữ liệu trên computer - internet và công nghệ viễn thông hiện đại.
- Cơ sở dữ liệu công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả nghiên cứu thực nghiệm đơn thuần, mà nó còn bao gồm khả năng khái quát hoá, mô phỏng hoá thành 8 những “đối tượng số ” của thế giới sinh học sống động.
- Thiết lập, kết nối và quản trị và khai thác cơ sở dữ liệu khổng lồ và đa dạng về sinh học và các ngành hay lĩnh vực khoa học liên quan, trên quy mô toàn cầu.
- Các dữ liệu thông tin này được lưu giữ trong các máy chủ của hàng trăm ngàn mạng con (LAN và WAN) và trong các máy tính đang hoà mạng trên khắp thế giới.
- Loại các thông tin giới hạn truy cập: Bao gồm tất cả các dữ liệu hay các hệ thống dữ liệu trên mạng, nhưng việc truy cập và khai thác chỉ có thể được thực hiện nếu được phép của chủ sở hữu chúng.
- Thông thường, nguồn dữ liệu này được lưu giữ trên mạng nhưng với độ bảo mật rất cao.
- Dịch vụ trao đổi các tệp dữ liệu (files transfer - ftp): Dịch vụ ftp cũng là dịch vụ cơ sở đầu tiên của việc kết nối mạng, nhưng được xây dựng dành riêng cho những người sử dụng chỉ trao đổi một hay một số tệp dữ liệu nhất định, song không mong muốn truy cập (hay không được thẩm quyền truy cập) vào toàn bộ ngân hàng dữ liệu của máy chủ đó.
- Với dịch vụ thông tin mới này, khả năng trình bày, nội dung hiển thị, đường dẫn đến các cơ sở dữ liệu hay các dạng dịch vụ khác rất đa dạng.
- 17 * Vào một cơ sở dữ liệu lớn đã biết gần gũi với chuyên mục cần tìm kiếm.
- để mở rộng khả năng tìm kiếm sang các cơ sở dữ liệu khác.
- trong nhiều trường hợp lại là cách tiếp cận nhanh chóng và hiệu quả đến nguồn dữ liệu mong muốn.
- CƠ SỞ DỮ LIỆU CÔNG NGHỆ SINH HỌC 3.1.
- Như một hệ quả tất yếu, năng lực lưu trữ, xử lý và khai thác cơ sở dữ liệu nói chung, và dữ liệu về công nghệ sinh học nói riêng, cũng tập trung cao độ trong các ngân hàng dữ liệu thuộc ba trung tâm khoa học và công nghệ hàng đầu thế giới là: Mỹ, Cộng đồng Châu Âu và Nhật Bản.
- Trên nền tảng công nghệ thông tin và internet, cơ sở dữ liệu công nghệ sinh học và hợp tác trao đổi thông tin đã thực sự liên thông và liên kết quy mô toàn cầu.
- Từ hầu hết các cơ sở dữ liệu đều có thể tìm thấy các đường dẫn siêu liên kết đến các cơ sở dữ liệu khác.
- Đồng thời, các trung tâm dữ liệu lớn như NCBI, EBI, WFCC, ExPASy.
- thực hiện chế độ trao đổi dữ liệu và cập nhật thông tin trong ngày.
- Sau đây, cuốn sách cung cấp cho bạn đọc một vài địa chỉ của các ngân hàng dữ liệu lớn trên thế giới để tham khảo.
- Địa chỉ và ảnh trang chủ của cơ sở dữ liệu thuộc Viện Tin-Sinh học Châu Âu (European Bioinformatics Institute) 23 Hình 3.3.
- Địa chỉ và ảnh trang chủ của cơ sở dữ liệu thuộc Viện Gen Qquốc gia Nhật Bản (National Institute of Genetics, Japan) (www.nig.ac.jp/section/service.html) 24 Hình 3.4.
- Địa chỉ và ảnh trang chủ của cơ sở dữ liệu về hệ thống nghiên cứu phân tích cấu trúc protein của Thuỵ Sĩ (ExPASy Proteomics Server, Swiss Institute of Bioinformatics) (http://www.expasy.ch/) 25 Hình 3.5.
- Đặc điểm của dữ liệu công nghệ sinh học Nguồn cơ sở dữ liệu liên quan đến sinh học được truyền tải trên mạng vô cùng đa dạng, phong phú về chủng loại và đồ sộ về khối lượng, với tốc độ gia tăng mạnh mẽ theo thời gian.
- Về nội dung, cơ sở dữ liệu trải rộng trên tất cả các mặt khác nhau, từ các thông tin chung về tiềm lực khoa học và công nghệ của các cơ quan, đến các thông tin về các công trình khoa học đã công bố, các tạp chí chuyên ngành.
- Về đặc điểm cấu trúc, nguồn thông tin này có thể phân chia sơ bộ thành hai mảng lớn là mảng dữ liệu sơ cấp và mảng dữ liệu thứ cấp.
- Mảng dữ liệu thứ cấp bao gồm các dữ liệu và thông tin thu được trên cơ sở phân tích, khái quát hoá, hệ thống hoá hay thông tin mô phỏng cho từng đối tượng hay nhóm đối tượng sinh học trong thế giới tự nhiên.
- Mảng dữ liệu này được hình thành thông qua việc xử lý hàng loạt mảng dữ liệu thực nghiệm rời rạc, để từ đó có thể khái quát hoá thành quy luật biến đổi của nó hay mảng dữ liệu hình thành khi xử lý các kết quả nghiên cứu cụ thể, trên cơ sở các quy luật đã phát hiện được qua khai thác cơ sở dữ liệu công nghệ sinh học.
- Mảng dữ liệu 28 này bao gồm cả mảng thông tin mà qua đó nhà sinh học có thể khai thác phục vụ cho việc định hướng, hoạch định kế hoạch và tổ chức thực nghiệm khoa học tiếp theo sao cho hiệu quả hơn.
- Để xử lý phân tích cơ sở dữ liệu trên, đương nhiên không thể xem nhẹ vai trò của các chương trình hay các thuật toán xử lý dữ liệu sinh học ứng dụng.
- Chính các yếu tố này cũng là mảng dữ liệu hết sức quan trọng, góp phần tạo ra ưu thế ứng dụng to lớn của tin-sinh học.
- Quy mô và cấu trúc của từng cơ sở dữ liệu có những đặc điểm riêng, song nhìn chung có thể phân chia theo nội dung thành một số mảng dữ liệu chính lớn sau.
- Dữ liệu về thông tin thông thường (sách, tạp chí, tài liệu thông tin.
- dạng số hoá), thí dụ: cơ sở dữ liệu về các công trình khoa học đã công bố PUBMED (http://www.ncbi.nlm.nih.gov/PubMed.
- Dữ liệu về phân loại học, thí dụ: cơ sở dữ liệu về phân loại sinh học của NCBI (http://www.ncbi.nlm.nih.gov/taxonomy.
- cơ sở dữ liệu về hệ thống thông tin phân loại các giới (http://www.itis.usda.gov/itis.
- cơ sở dữ liệu của tổ chức quốc tế về các thông tin chung về thực vật (http://www.iopi.csu.edu.au/iopi.
- Dữ liệu về cấu trúc và đặc tính của nucleotide và genom: Đây là một trong hai mảng lớn nhất, đa dạng và phong phú nhất trong kho tàng dữ liệu công nghệ sinh học.
- Về dữ liệu cấu trúc chuỗi nucleotide, trước hết phải kể đến cơ sở dữ liệu hợp tác liên kết chung giữa EBI, NCBI và DDBJ (khi cần khai thác có thể truy cập vào một trong ba địa chỉ: http://www.ncbi.nlm.nih.gov/Genbank/index.html.
- Về dữ liệu genom có thể thí dụ một vài cơ sở dữ liệu lớn như: cơ sở dữ liệu về gen người (OMIM: http://www3.ncbi.nlm.nih.gov/Omim/ và GDB: http://www.gdb.org), cơ sở dữ liệu về vi khuẩn E.
- Dữ liệu về cấu trúc và đặc tính chuỗi amino axit và protein được xem là một trong hai mảng dữ liệu lớn nhất về công nghệ sinh học.
- cơ sở dữ liệu proteomic trong (http://www.genom.ad.jp/kegg/, http://wit.mcs.anl.gov/WIT2/, http://www.ncbi.nlm.nih.gov/COG.
- Dữ liệu về enzyme và các đường hướng trao đổi chất, thí dụ ENZYME Databases (http://www.expasy.ch/enzyme.
- Mỗi cơ sở dữ liệu có thể định hướng tập trung vào những mảng thông tin riêng.
- Song tất cả mọi cơ sở dữ liệu đều được xây dựng với tiêu chí đảm bảo dễ dàng truy cập, quản lý, và khai thác cho người khai thác dữ liệu, nhằm hỗ trợ giúp họ dễ dàng tìm kiếm được thông tin mong muốn.
- Để thoả mãn yêu cầu trên, nhìn chung tất cả các cơ sở dữ liệu đều cung cấp cho khách hàng các chương trình tìm kiếm và kết nối liên thông dữ liệu rất hiệu quả, thí dụ Entrez trong NCBI, SRS trong EBI hay SRS trong DDBJ.
- Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ Sinh học Mỹ Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ Sinh học Mỹ (National Centre for Biotechnology Informatic - NCBI) được thành lập năm 1988.
- Đây là một trong số các cơ sở dữ liệu sinh học lớn nhất thế 31 giới hiện nay.
- Cơ sở NCBI quản lý nguồn thông tin sinh học khổng lồ, với khoảng 25.106 nhóm dữ liệu khác nhau, bao gồm từ thông tin về các công trình đã công bố, đến dữ liệu về cấu trúc chuỗi DNA, cấu trúc chuỗi amino axit, cấu trúc gen các loài, cấu trúc không gian ba chiều của các cơ chất khác nhau.
- Nguồn thông tin dữ liệu trong ngân hàng được tổ chức và quản lý theo từng nhóm tin, với sự liên thông kết nối chặt chẽ giữa các nhóm với nhau (hình 3.7).
- Khi truy cập vào ngân hàng, sử dụng công cụ tìm kiếm dữ liệu Entrez, người khai thác tin có thể dễ dàng truy cập khai thác các nhóm tin trong cơ sở dữ liệu của NCBI với các đường dẫn siêu liên kết để kết nối liên thông rất thuận tiện và hiệu quả.
- Sau đây là một số mảng dữ liệu lớn của trung tâm dữ liệu này.
- 32 • GenBank: Là mảng cơ sở dữ liệu về cấu trúc chuỗi DNA và chuỗi amino axit, với đơn vị cơ sở là các tệp dữ liệu của từng mạch đơn, kèm theo thông tin mô tả về đặc tính của chúng.
- Các tệp dữ liệu này được tổ chức theo nhóm (Division), rồi được tổ chức theo cấu trúc phân loại Hình 3.7.
- Sơ đồ cấu trúc cơ sở dữ liệu NCBI loài.
- Cơ sở dữ liệu GenBank đồng thời là sản phẩm hợp tác quốc tế giữa ba trung tâm dữ liệu gen lớn nhất thế giới là: GenBank of NCBI (USA), DNA Data Bank of Japan (DDBJ, Mishima, Japan) và European Molecular Biology Laboratory nucleotide database (EMBL, at EBI, Hinxton, England).
- Entrez System: Thông thường, mỗi tệp dữ liệu đều truyền tải hàng loạt thông tin khác nhau, trên cơ sở tổ chức theo nhóm, từng thông tin này được sắp xếp tại các thư mục thích hợp trong kho tàng cơ sở dữ liệu của NCBI.
- Dịch vụ Entrez ra đời nhằm kết nối liên thông giữa các mảng dữ liệu này, giúp cho người truy cập tiếp cận nhanh và đầy đủ các thông tin tìm kiếm.
- Như vậy, tự Entrez không phải là một cơ sở dữ liệu, mà khi sử dụng dịch vụ này người khai thác có thể dễ dàng tiếp cận các thông tin liên quan từ nhiều mảng dữ liệu khác nhau, thí dụ: dữ liệu truyền thống từ PubMed, cấu trúc và các thông tin liên quan của chuỗi xoắn kép DNA và chuỗi nucleotide, cấu trúc không gian ba chiều của chuỗi protein.
- Cơ sở dữ liệu EMBL Phòng thí nghiệm Sinh học Phân tử Châu Âu (European Molecular Biology Laboratory - EMBL, 1974) là hệ thống liên kết các phòng thí nghiệm sinh học của 17 nước Tây Âu và Israel, trong đó tập trung vào năm trung tâm nghiên cứu lớn ở Heidelberg và Hamburg (CHLB Đức), Grenoble (Pháp), Hinxton (Anh) và Monterotondo (Italia).
- Với mục tiêu 34 xây dựng, lưu giữ, xử lý cơ sở dữ liệu và cung cấp các dịch vụ thông tin liên quan đến sinh học phân tử và tin-sinh học, Viện Tin-Sinh học Châu Âu (Europian Bioinformatics Institute, trực thuộc EMBL) được thành lập chính thức vào năm 1994.
- Qua quá trình xây dựng và phát triển cơ sở dữ liệu của EBI (EBI Databases) hiện đã trở thành một trong ba ngân hàng dữ liệu sinh học lớn nhất trên thế giới.
- Việc quản lý, tìm kiếm và khai thác cơ sở dữ liệu khổng lồ này được thực hiện dễ dàng qua chương trình SRS (Sequence Retrieval System).
- Sau đây điểm một vài thông tin chính về ba cơ sở dữ liệu lớn của EBI.
- Mảng dữ liệu cấu trúc DNA (EMBL Nucleotide Sequence Database, gọi tắt là EMBL - thành lập năm 1998) hiện đang lưu giữ thông tin về cấu trúc và đặc tính liên quan của khoảng trên hai triệu đoạn chuỗi DNA (với khoảng 2.3 tỉ cặp nucleotide).
- Mảng dữ liệu cấu trúc Protein (SWISS-PROT và TrEMBL protein sequence database): SWISS-PROT ra đời năm 1986 tại Trường Đại học Tổng hợp Giơnevơ (Thuỵ Sĩ) là một thành viên hợp tác thường xuyên với EBI (từ 1987).
- Đây là một sơ sở dữ liệu lớn về cấu trúc chuỗi protein và các đặc tính của chúng, cùng với các chương trình xử 35 lý, mô phỏng cấu trúc và đặc tính phân tử protein.
- Do nhu cầu cung cấp và xử lý thông tin liên quan đến mảng này rất lớn nên, sau đó, EBI đã thiết lập thêm cơ sở dữ liệu TrEMBL, cùng tồn tại song song và kết nối chặt chẽ với SWISS-PROT.
- Mảng dữ liệu cấu trúc các chất phân tử lượng lớn (Macromolecular Structure Database - EBI-MSD), là cơ sở dữ liệu liên quan đến các hợp chất sinh học có phân tử lượng lớn.
- Cơ sở dữ liệu CIB - DDBJ Cơ sở dữ liệu CIB - DDBJ (Center for Information Biology and DNA Data Bank of Japan) là cơ sở dữ liệu đặt dưới sự quản lý của Trung tâm Thông tin Sinh học, Viện Di truyền Quốc gia Nhật Bản (Japan National Institute of Genetics).
- CIB-DDBJ là cơ sở dữ liệu công nghệ sinh học quan trọng và là cơ sở dữ liệu DNA duy nhất ở Nhật Bản.
- Cơ sở dữ liệu này được xây dựng trước hết nhằm phục vụ cho hoạt động khoa học của các nhà sinh học Nhật Bản.
- Cơ sở dữ liệu này cung cấp trực tuyến cho người sử dụng rất nhiều nhóm thông tin khác nhau, bao gồm cả thông tin thường hay truy cập và khai thác hay các chương trình xử lý thông tin, thí dụ: SRS, gententry, FASTA BLAST, S&W, Search SQmatch XML, TXSearch GIB, ClustalW, GTOP LIBRA.
- Trên cơ sở này, việc nghiên cứu, so sánh, xử lý dữ liệu và thiết kế mô phỏng chương trình nghiên cứu thực nghiệm có thể tiến hành một cách thuận lợi và hiệu quả hơn so với cách thức đã thực hiện theo công nghệ cổ điển.
- Sử dụng chương trình CLUSTALW trực tuyến Để phân tích quy luật vận động tương đối giữa các chuỗi bằng chương trình CLUSTALW trực tuyến, đầu tiên người phân tích phải kết nối internet để hiển thị giao diện chương trình trực tuyến tại các cơ sở dữ liệu tương ứng (hoặc có thể tải chương trình về cài đặt và xử lý tại chỗ).
- Toàn bộ dữ liệu của các chuỗi này phải được viết theo cùng một trong các định dạng ngôn ngữ sau: FASTA (Pearson), NBRF/PIR, EMBL/UniProt/Swiss Prot, GDE, ALN/CLUSTALW, GCG/ MSF và GCG9/RSF (được liệt kê trong mục supported format trên giao diện chương trình - Thường các chương trình tích hợp sẵn trong thiết bị phân tích hiện đại hay dữ liệu lưu trữ trong các ngân hàng dữ liệu trực tuyến đều đã chuyển kết quả định dạng thành một trong các ngôn ngữ trên).
- Giả sử người phân tích muốn tìm kiếm quy luật vận động tương đối giữa 9 chuỗi, được lựa chọn theo nhóm đặc tính từ trong ngân hàng dữ liệu (xem kết quả tìm kiếm, chương 9), với các mã hiệu của chuỗi như sau: BF056441 BG147728 BE848719 AF186109 AF186110 BF022813 AF310722 AF362886 BF452255 AF362887 AF087679 BG089808 BI817778 Các chuỗi này được tải về từ ngân hàng dữ liệu, được lựa chọn sau khi đã phân tích kỹ lưỡng về đặc tính tương đồng về mặt sinh học, rồi chép tuần tự vào thành một tệp chung (Yêu cầu bắt buộc của các chuỗi là phải cùng viết trên một ngôn ngữ và không cần phân biệt thứ tự các chuỗi được chép).
- Tệp dữ liệu chung có dạng như sau: >embl:BF056441 BF056441.
- rồi nhấn lệnh chuyển dữ liệu đi xử lý trực tuyến (run).
- Sau khoảng thời gian nhất định, chương trình xử lý dữ liệu trực tuyến sẽ phản hồi lại kết quả xử lý với dạng giao diện như hình 5.2.
- Trong giao diện kết quả hiển thị, cần chú ý đến bốn tệp dữ liệu: *.input.
- Trong trường hợp không sử dụng dịch vụ xử lý trực tuyến, có thể tải chương trình CluatalW miễn phí về máy cá nhân từ nhiều ngân hàng dữ liệu khác nhau, thí dụ NCBI, EBI hay DDBJ.
- Tuy nhiên, với tốc độ đường truyền phù hợp, việc lựa chọn chế độ xử lý trực tuyến cho phép khai thác sử dụng chương trình xử lý dữ liệu cập nhật nhất về chất lượng xử lý.
- trên cơ sở dữ liệu phân tích của các đoạn mồi tương ứng đã biết trong các ngân hàng dữ liệu.
- Trong tệp dữ liệu kết quả, có thể xảy ra hai khả năng: chương trình không lựa chọn được đoạn mồi thoả mãn với các các thông số đã chọn

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt