« Home « Kết quả tìm kiếm

Lập trình khoa học dữ liệu


Tìm thấy 20+ kết quả cho từ khóa "Lập trình khoa học dữ liệu"

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 1 - Trương Xuân Nam

tailieu.vn

NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU. Khoa học dữ liệu khác các khoa học khác ở điểm nào?. Một số vấn đề khoa học dữ liệu xung quanh chúng ta 3. Nghề làm khoa học dữ liệu có ưu thế gì?. Data scientist (nhà khoa học dữ liệu) làm gì?. Data scientist workflow 2. Data scientist cần gì?. Tên môn: Nhập môn Lập trình Khoa học Dữ liệu (Introduction to Programming for Data Science). Một số thư viện xử lý dữ liệu của python. Trực quan hóa dữ liệu. Học từ dữ liệu như thế nào. Kiến thức yêu cầu.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 2 - Trương Xuân Nam

tailieu.vn

NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU. Bài 2: Ngôn Ngữ Lập Trình Python (1). Giới thiệu ngôn ngữ python. Cách thực hiện câu lệnh, chương trình 3. Nhập và Xuất dữ liệu 5. Python kế thừa từ ngôn ngữ ABC. Được xếp vào loại “ngôn ngữ kịch bản” (scripting programming language). Là ngôn ngữ mã nguồn mở. Kiểu dữ liệu động ở mức cao. Có khả năng tương tác với các module viết bằng ngôn ngữ lập trình khác. Ưu điểm của ngôn ngữ python. Chương trình chạy chậm.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 11 - Trương Xuân Nam

tailieu.vn

NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU. Mối quan hệ giữa Khoa học Dữ liệuHọc máy 2. Một số loại bài toán học máy. Thư viện học máy scikit-learn 4. Mối quan hệ giữa Khoa học Dữ liệuHọc máy. Khoa học dữ liệu là gì?. Hầu hết các ngành khoa học từ xưa đến nay đều giải quyết vấn đề dựa trên lập luận và tri thức. Ta gọi các ngành khoa học này là “knowledge-driven”. Với quan điểm như vậy, tất cả những quan sát mà không được chứng minh chặt chẽ thường được cho là “không khoa học”.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 10 - Trương Xuân Nam

tailieu.vn

NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU. Nhập dữ liệu từ file k59.csv (file kèm với bài giảng) 1. In dữ liệu ra màn hình. In 5 dòng đầu tiên và 5 dòng cuối cùng của dữ liệu ra màn hình. câu 1: in dữ liệu ra màn hình. print(d.head(5. câu 2: in 5 dòng đầu tiên print(d.tail(5. Dữ liệu có 3 trục:. ‘data’ có thể nhận các kiểu dữ liệu sau: ndarray, series, map, lists, dict, hằng số và cả dataframe khác. ‘dtype’ là kiểu dữ liệu mỗi cột.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 7 - Trương Xuân Nam

tailieu.vn

NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU. networkx và igraph: làm việc với dữ liệu đồ thị, có thể làm việc với dữ liệu rất lớn (đồ thị hàng triệu đỉnh). regular expressions: tìm kiếm mẫu trong dữ liệu text. BeautifulSoup: trích xuất dữ liệu từ file HTML hoặc từ.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 9 - Trương Xuân Nam

tailieu.vn

NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU. Cấu trúc dữ liệu trong pandas 3. “pandas” là thư viện mở rộng từ numpy, chuyên để xử lý dữ liệu cấu trúc dạng bảng. Tên “pandas” là dạng số nhiều của “panel data”. Đọc dữ liệu từ nhiều định dạng. Liên kết dữ liệu và tích hợp xử lý dữ liệu bị thiếu. Xoay và chuyển đổi chiều của dữ liệu dễ dàng. Tách, đánh chỉ mục và chia nhỏ các tập dữ liệu lớn dựa trên nhãn. Có thể nhóm dữ liệu cho các mục đích hợp nhất và chuyển đổi.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 4 - Trương Xuân Nam

tailieu.vn

NHẬP MÔN LẬP TRÌNH KHOA HỌC DỮ LIỆU. Vòng lặp for cho phép lần lượt thực hiện lặp với các giá trị nhận được từ một danh sách. Nội dung. Kiểu dữ liệu tuần tự (sequential data type) 2. Kiểu dữ liệu tuần tự (sequential data type). Kiểu dữ liệu tuần tự. Kiểu dữ liệu tuần tự: kiểu dữ liệu chứa bên trong nó các dữ liệu con nhỏ hơn và thường được xử lý bằng cách lấy ra từng phần-tử-một (bằng vòng for). Các kiểu dữ liệu chứa bên trong nó các dữ liệu nhỏ hơn thường được gọi là các container (bộ chứa).

Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu

tailieu.vn

LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU. Tổng quan về khoa học dữ liệu. Khoa học dữ liệu là gì 1. Ứng dụng của khoa học dữ liệu 2. Data scientist (nhà khoa học dữ liệu) 3. Các yếu tố phát triển khoa học dữ liệu 4. Khoa học dữ liệu là gì. Hầu hết các ngành khoa học từ xưa đến nayđều giải quyết vấn đề dựa trên lập luận và tri thức. Ta gọi các ngành khoa học này là “knowledge-driven”. không được chứng minh chặt chẽ thường đượccho là “không khoa học”.

Bài giảng Lập trình cho khoa học dữ liệu - Bài 2: Lập trình căn bản với Python

tailieu.vn

Dữ liệu kiểu chuỗi rất quan trọng trong lậptrình python và trong các vấn đề của khoa học dữ liệu. Khai báo dữ liệu kiểu chuỗi có thể nằm bên trong cặp nháy đơn. Tương tự như các ngôn ngữ lập trình khác. Python sử dụng kí tự # để chú thích các đoạncode. Nhâp, xuất dữ liệu. Xuất dữ liệu. Sử dụng hàm print để in dữ liệu ra mànhình. Nhập dữ liệu. Sử dụng hàm input để nhập dữ liệu từ bànphím

Bài giảng Lập trình cho khoa học dữ liệu - Bài 10: Thư viện scikit- learn

tailieu.vn

LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU. Mối quan hệ giữa KHDLvà Học máy 1. Một số loại bài toán học máy 2. Thư viện học máy scikit-learn 3. Khoa học Dữ liệuHọc máy. Nhiều người (chẳng hạn như Nate Silver) cho rằng ngành khoa học dữ liệu chỉ là một dạng thống kê. Học máy là phương pháp quan trọng để xử lý dữ liệu trong ngành data science, bên cạnh những phương pháp truyền thống khác. Quá trình xử lý của khoa học dữ liệu. Xử lý dữ liệu. Chọn mô hình học máy phù hợp với bài toán phân loại thư rác.

Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện Pandas

tailieu.vn

LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU. Cấu trúc dữ liệu trong pandas 2. Chọn và nhóm phần tử 6. “pandas” là thư viện mở rộng từnumpy, chuyên để xử lý dữ liệu cấu trúc dạngbảng. Tên “pandas” là dạng số nhiều của “panel data”. Đọc dữ liệu từ nhiều địnhdạng. Liên kết dữ liệu và tích hợp xử lý dữ liệu bịthiếu. Xoay và chuyển đổi chiều của dữ liệu dễ dàng. Tách, đánh chỉ mục và chia nhỏ các tập dữ liệu lớn dựa trên nhãn. Có thể nhóm dữ liệu cho các mục đích hợp nhất và chuyển đổi.

Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy

tailieu.vn

LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU. Phân cụm dữ liệu 1. Phân cụm mờ 2. Phân cụm. Phân cụm (clustering). Phát hiện các cụm dữ liệu, cụm tính chất,…. 4 Tổng quan. "PCDL là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định". 5 Tổng quan. ❖Như vậy, PCDL là quá trình phân chia một tập DL ban đầu thành các cụm DL sao cho:.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 8 - Trương Xuân Nam

tailieu.vn

Viết đoạn chương trình python vẽ biểu đồ sau. Vẽ biểu đồ như hình dưới ứng với bộ dữ liệu sau. x y plt.plot(x, y). plt.axis([1,3,1,4]). plt.xticks(np.arange plt.xlabel('x-axis'). plt.ylabel('y-axis'). plt.title('Sample graph

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 3 - Trương Xuân Nam

tailieu.vn

Kiểu dữ liệu và phép toán liên quan 2. Vòng lặp 4. Kiểu dữ liệu và phép toán liên quan. Python viết số nguyên theo nhiều hệ cơ số. A = 1234 # hệ cơ số 10. B = 0xAF1 # hệ cơ số 16. C = 0o772 # hệ cơ số 8. D = 0b1001 # hệ cơ số 2. Chuyển đổi từ số nguyên thành string ở các hệ cơ số khác nhau. chuyển thành str ở hệ cơ số 10. chuyển thành str ở hệ cơ số 16. chuyển thành str ở hệ cơ số 8. chuyển thành str ở hệ cơ số 2. Phép toán. Python hỗ trợ nhiều phép toán số, logic, so sánh và phép toán bit.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 6 - Trương Xuân Nam

tailieu.vn

SystemError Được tạo khi trình thông dịch tìm thấy một vấn đề nội tại, nhưng khi lỗi này được bắt gặp thì trình thông dịch không thoát ra. SystemExit Được tạo khi trình thông dịch thoát ra bởi sử dụng hàm. Nếu không được xử lý trong code, sẽ làm cho trình thông dịch thoát. TypeError Được tạo khi một hoạt động hoặc hàm sử dụng một kiểu dữ liệu không hợp lệ. ValueError Được tạo khi hàm đã được xây dựng sẵn có các kiểu tham số hợp lệ nhưng các giá trị được xác định cho tham số đó là không hợp lệ.

Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 5 - Trương Xuân Nam

tailieu.vn

Chú ý: chỉ những loại dữ liệu immutable (không thể thay đổi) mới có thể dùng làm key của từ điển. k in d: trả về True nếu có key k trong từ điển. k not in d: trả về True nếu không có key k trong từ điển. pop(k): trả về value tương ứng với k và xóa cặp này đi. trả về (và xóa) một cặp (key, value) tùy ý. ở chỗ get trả về None nếu k không phải là key. trả về list các cặp (key, value). trả về các key của từ điển. trả về các value của từ điển. Dùng zip để ghép 2 list thành từ điển.

ÔN TẬP KHOA HỌC DỮ LIỆU

www.academia.edu

Internet vạn vật khiến cho lượng dữ liệu được thu thập tăng cao. AI sử dụng kết quả từ khoa học dữ liệu để có thể thông minh hơn, chính xác hơn. Bigdata là công nghệ lưu trữ và khai thác dữ liệu có dung lượng lớn (volume), đa dạng (variety), yêu cầu tốc độ cao (velocity) và có tính xác thực (Veracity). Data mining là một phương pháp phân tích dữ liệu của khoa học dữ liệu. Kết quả mà khoa học dữ liệu hướng đến là: a. Dữ liệu b.

Bài giảng Lập trình cho khoa học dữ liệu - Bài 4: Xử lý dữ liệu trong Python

tailieu.vn

Xử lý dữ liệu trong Python. Nội dung. Kiểu dữ liệu tuần tự (sequential datatype) 1. Kiểu dữ liệu tuần tự (sequential datatype). Kiểu dữ liệu tuần tự: kiểu dữ liệu chứa bên trong nó các dữ liệu con nhỏ hơn và thường được xử lý bằng cách lấy ra từng phần-tử-một (bằng vòngfor). Các kiểu dữ liệu chứa bên trong nó các dữ liệu nhỏhơn thường được gọi là các container (bộ chứa). Khái niệm “tuần tự” nhấn vào việc xử lý từng phần tử một, nhưng không nhất thiết đây là cách xử lý duy nhất.

Bài giảng Lập trình cho khoa học dữ liệu - Bài 5: Xử lý dữ liệu trong Python

tailieu.vn

SystemError Được tạo khi trình thông dịch tìm thấy một vấn đề nội tại, nhưng khi lỗi này được bắt gặp thì trình thông dịch không thoátra. SystemExit Được tạo khi trình thông dịch thoát ra bởi sử dụng hàm. Nếu không được xử lý trong code, sẽ làm cho trình thông dịch thoát. TypeError Được tạo khi một hoạt động hoặc hàm sử dụng một kiểudữ liệu không hợp lệ. ValueError Được tạo khi hàm đã được xây dựng sẵn có các kiểu tham số hợp lệ nhưng các giá trị được xác định cho tham số đó làkhông hợp lệ.

Bài giảng Lập trình cho khoa học dữ liệu - Bài 7: Thư viện numpy

tailieu.vn

Đọc dữ liệu từ file. x = np.loadtxt(c. y = np.loadtxt(d, dtype={'names': ('gender. x = np.array([[1, 2 , 3. v = np.array . print(np.sum(x)). print(np.sum(x, axis=0)) print(np.sum(x, axis=1)).