« Home « Kết quả tìm kiếm

Phân tích số liệu và biểu đồ bằng R Phân tích số liệu và biểu đồ bằng


Tóm tắt Xem thử

- Đến đây thì chúng ta đã sẵn sàng sử dụng R.
- Có thể nhấp chuột vào icon này và chúng ta sẽ có một window như sau: 5 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn 2.
- Chúng ta có thể sử dụng function có tên c như sau.
- save(tuan, file=”tuan.rda”) 11 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn Lệnh đầu tiên (setwd – chữ wd có nghĩa là working directory) cho R biết rằng chúng ta muốn lưu các số liệu trong directory có tên là “c:\works\insulin”.
- nhưng trong R chúng ta dùng dấu forward slash.
- chol chol Hay 13 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn > names(chol) R sẽ cho biết có các cột như sau trong dữ liệu (names là lệnh hỏi trong dữ liệu có những cột nào và tên gì): [1] "id" "sex" "age" "bmi" "hdl" "ldl" "tc" "tg" Bây giờ chúng ta có thể lưu dữ liệu dưới dạng R để xử lí sau này bằng cách ra lệnh.
- Các lệnh sau đây sẽ hoàn tất dễ dàng việc này: Việc đầu tiên chúng ta cho truy nhập foreign bằng lệnh library: 15 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn > library(foreign) Việc thứ hai là lệnh read.spss.
- Để tìm hiểu xem trong dữ liệu này có gì, chúng ta có thể nhập vào R như sau.
- Ví dụ (kết quả của R trình bày ngay sau khi chúng ta gõ lệnh.
- names(chol) [1] "id" "sex" "age" "bmi" "hdl" "ldl" "tc" "tg" 16 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn • Trong biến số sex, chúng ta có bao nhiêu nam và nữ? Để trả lời câu hỏi này, chúng ta có thể dùng lệnh table(arg) với arg là tên của biến số.
- Chúng ta có thể chiết dữ liệu chol và chỉ giữ lại những biến số cần thiết như mã số (id), độ tuổi (age) và total cholestrol (tc).
- Chúng ta có thể dùng lệnh sau đây.
- Chúng ta có thể nhập hai dữ liệu thành một data.frame bằng cách dùng lệnh merge như sau.
- Tất nhiên, chúng ta cũng có thể chia thành 3 nhóm bằng lệnh.
- 6.2 Sử dụng R cho các phép tính ma trận Như chúng ta biết ma trận (matrix), nói đơn giản, gồm có dòng (row) và cột (column).
- Trong R, chúng ta cũng có thể thể hiện như thế.
- y A A Nhưng nếu chúng ta lệnh.
- Chúng ta có thể tạo một ma trận như thế bằng R như sau.
- A A B B Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn Chúng ta có thể cộng A+B.
- Chúng ta muốn tính AB, và có thể triển khai bằng R bằng cách sử dụng.
- A Y X X Chúng ta có thể kiểm tra.
- Sử dụng R cho tính toán xác suất 7.1 Phép hoán vị (permutation) Chúng ta biết rằng 3.
- Trong R, có hàm dbinom(k, n−k n, p) có thể giúp chúng ta tính công thức P ( k | n, p.
- Trong trường hợp trên, chúng ta chỉ cần đơn giản lệnh.
- Để trả lời câu hỏi này, chúng ta sử dụng hàm 33 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn pbinom(k, n, p).
- Qua biểu đồ trên, chúng ta thấy xác suất có 4 bệnh nhân cao huyết áp (trong mỗi lần chọn mẫu 20 người) là cao nhất (22.9.
- Ở đây, chúng ta có tỉ lệ sai chính tả trung bình là 1(λ = 1).
- dpois Chúng ta cũng có thể tính xác suất sai 1 chữ, và xác suất không sai chữ nào.
- dpois dpois(0, 1) 35 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn Chú ý trong hàm trên, chúng ta chỉ đơn giản cung cấp thông số k = 2 và (λ = 1.
- Bằng R, chúng ta có thể tính như sau.
- 0.0594 Hàm dnorm(x, mean, sd)trong R có thể tính toán xác suất này cho chúng ta một cách gọn nhẹ.
- Nếu Z = 0, chúng ta biết rằng X bằng số trung bình µ.
- Chúng ta có thể tính toán xác suất z nhỏ hơn một hằng số (constant) nào đó dê dàng bằng R.
- Ví dụ, chúng ta muốn tìm P(z ≤ -1.96.
- Đôi khi chúng ta cần làm một tính toán đảo ngược.
- 0.95, chúng ta muốn tìm z.
- Với R, chúng ta có thể lấy mẫu một mẫu ngẫu nhiên bằng cách sử dụng hàm sample.
- Nhưng nếu chúng ta muốn chọn mẫu thay thế (tức mỗi lần chọn ra một số đối tượng, chúng ta bỏ vào lại trong quần thể để chọn tiếp lần sau).
- Cứ như thế, chúng ta chọn 20 lần, kết quả có thể là.
- 20, replace=T) [1] "X" "D" "D" "D" "D" "D" "X" "X" "X" "X" "X" "D" "X" "X" "D" "X" "X" "X" "X" [20] "D" Ngoài ra, chúng ta còn có thể lấy mẫu với một xác suất cho trước.
- Tất nhiên, biến số có thể là liên tục hay không liên tục, cho nên, trong thực tế, chúng ta có 4 loại biểu đồ.
- Để vẽ biểu đồ tần số của biến số age, chúng ta chỉ đơn giản lệnh hist(age).
- Chúng ta cũng có thể biến đổi biểu đồ thành một đồ thị phân phối xác suất bằng hàm plot(density) như sau (kết quả trong Biểu đồ 12a.
- Trong biểu đồ sau đây, chúng ta so sánh tc giữa hai nhóm nam và nữ.
- Trong biểu đồ này, chúng ta Biểu đồ 14b.
- Để vẽ biểu đồ tán xạ về mối liên hệ giữa biến số tc và hdl, chúng ta sử dụng hàm plot.
- Chúng ta muốn phân biệt giới tính (nam và nữ) trong biểu đồ trên.
- Để vẽ biểu đồ đó, chúng ta phải dùng đến hàm ifelse.
- Chúng ta cũng có thể thay kí tư thành “M” (nam) và “F” nữ(xem Biểu đồ 16b.
- Chúng ta cũng có thể dùng hàm trơn (smooth function) để biểu diễn mối liên hệ giữa hai biến số.
- Chúng ta muốn vẽ biểu đồ cho 5 nhóm với sai số chuẩn đó.
- xn chúng ta có thể tính toán một số chỉ số thống kê mô tả như sau: Lí thuyết Hàm R n 1 mean(x) Số trung bình: x.
- var(age sd(age Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn Tuy nhiên, R có lệnh summary có thể cho chúng ta tất cả thông tin thống kê về một biến số.
- Để có các số này, chúng ta có thể tự viết một hàm đơn giản (hãy gọi là desc) như sau: desc op hist(igfi.
- Để trả lời câu hỏi này, chúng ta sử dụng kiểm định t.
- Chúng ta có thể dùng R để trả lời câu hỏi trên bằng hàm t.test như sau.
- Để kiểm định phân phối của igfi, chúng ta có thể dùng hàm shapiro.test như sau.
- shapiro.test(igfi) Shapiro-Wilk normality test 63 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn data: igfi W = 0.8528, p-value = 1.504e-08 Trị số p nhỏ hơn 0.05 rất nhiều, cho nên chúng ta có thể nói rằng phân phối của igfi không tuân theo luật phân phối chuẩn.
- Trong các nghiên cứu này, chúng ta cần sử dụng một kiểm định t có tên là paired t-test.
- Để trả lời câu hỏi này, chúng ta dùng kiểm định t cho từng cặp như sau.
- 65 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn 9.7 Tần số (frequency) Hàm table trong R có chức năng cho chúng ta biết về tần số của một biến số mang tính phân loại như sex và ethnicity.
- Do đó, chúng ta có thể ước tính hai tỉ lệ p1 và p2.
- Lí thuyết xác suất cho phép chúng ta phát biểu rằng độ khác biệt giữa hai mẫu d = p1 – p2 tuân theo luật phân phối chuẩn với số trung bình 0 và phương sai bằng: 68 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn 1 1 Vd.
- Do đó, chúng ta cũng có thể sử dụng prop.test để kiểm định hai tỉ lệ.
- Với trị số p = 0.027, chúng ta có thể nói rằng tỉ lệ gãy xương trong nhóm A quả thật thấp hơn nhóm B.
- Chúng ta chỉ đơn giản lệnh.
- Chúng ta thử nhập số liệu này vào R và vẽ một biểu đồ tán xạ như sau.
- Để “đo lường” mối liên hệ này, chúng ta có thể sử dụng hệ số tương quan (coefficient of correlation).
- Để ước tính hệ số tương quan giữa độ tuổi age và cholesterol, chúng ta có thể sử dụng hàm cor(x,y) như sau.
- Sau khi đã có ước số α và β , chúng ta có thể ước tính độ cholesterol trung bình cho từng độ tuổi như sau.
- Chúng ta tiếp tục với ví dụ bằng R như sau.
- Phần kết quả chia làm 3 phần: 76 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn (a) Phần 1 mô tả phần dư (residuals) của mô hình hồi qui: Residuals: Min 1Q Median 3Q Max Chúng ta biết rằng trung bình phần dư phải là 0, và ở đây, số trung vị là -0.04, cũng không xa 0 bao nhiêu.
- fitted(reg Với lệnh resid() chúng ta có thể tính toán phần dư ei cho từng cá nhân như sau (với đối tượng 1, e .
- resid(reg Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn Để kiểm tra các giả định trên, chúng ta có thể vẽ một loạt 4 đồ thị mà tôi sẽ giải thích sau đây.
- β k xki + ε i Chú ý trong phương trình trên, chúng ta có nhiều biến x (x1, x2.
- Biểu đồ sau đây cho chúng ta thấy mối liên hệ giữa ba biến số này.
- Biểu đồ trên còn cho chúng ta thấy độ tuổi và bmi có liên hệ với 82 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn nhau.
- Điều này có thể hiểu được, bởi vì qua Biểu đồ 10.5 chúng ta thấy độ tuổi và bmi có một mối liên hệ khá cao.
- Để minh họa cho phương pháp phân tích phương sai, chúng ta phải dùng kí hiệu.
- Chúng ta có thể dùng lệnh pairwise.t.test để có được tất cả các trị số p so sánh giữa ba nhóm như sau.
- Hàm kruskal.test trong R có thể giúp chúng ta trong kiểm định này.
- Để phân tích bằng R, chúng ta cần phải tổ chức dữ liệu sao cho có 4 biến như sau: Condition Material Đối tượng Score (điều kiện) (vật liệu Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn Chúng ta có thể tạo ra một dãy số bằng cách sử dụng hàm gl (generating levels.
- Để phân tích phương sai hai chiều, chúng ta vẫn sử dụng lệnh lm với các thông số như sau.
- Chúng ta yêu cầu R tóm lược các ước số phân tích bằng lệnh summary.
- Sau khi đã có ước số α̂ và βˆ chúng ta có thể ước tính xác suất p cho bất cứ giá trị nào của x như sau (sau vài thao tác đại số): ˆ eαˆ + β x 1 pˆ.
- Trước hết chúng ta phải nhập toàn bộ số liệu vào một data 97 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn frame, và cho một cái tên, chẳng hạn như fracture.
- Chúng ta kiểm tra xem có bao nhiêu bệnh nhân gãy xương.
- Chúng ta sẽ tìm hiểu độ lệch chuẩn của bmd.
- 12.3 Ước tính xác suất bằng R Xin nhắc lại trong phân tích trên, chúng ta cho các kết quả vào đối tượng logistic.
- nếu P > 0.05 chúng ta nói kết quả không có ý nghĩa thống kê.
- Xin nhắc lại rằng chúng ta không biết risedronate thật sự có hiệu nghiệm chống gãy xương 104 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn hay không.
- chúng ta chỉ có thể đặt giả thiết H.
- Kết quả trên cho biết chúng ta cần 190 bệnh nhân cho mỗi nhóm (hay 380 bệnh nhân cho công trình nghiên cứu).
- µk, chúng ta có thể tính tổng bình phương giữa các nhóm bằng k k SS SS SS.
- Nói cách khác, chúng ta muốn: 1.96 × pˆ (1 − pˆ.
- 111 Phân tích số liệu và biểu đồ bằng R Nguyễn Văn Tuấn Ví dụ 24: Chúng ta muốn ước tính tỉ lệ đàn ông hút thuốc ở Việt Nam, sao cho ước số không cao hơn hay thấp hơn 2% so với tỉ lệ thật trong toàn dân số.
- Trong ví dụ này, chúng ta có sai số m = 0.02, p.
- Nói cách khác, chúng ta cần nghiên cứu ít nhất là 2017.
- Giả thiết mà chúng ta muốn kiểm định là.
- Trong ví dụ trên, chúng ta có thể viết