Academia.eduAcademia.edu
Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Baøi 2 (STATA) SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH TH NG KÊ TRONG NGHIÊN CỨU KHOA HỌC ĐẠI CƯƠNG VỀ PHÂN TÍCH S LI U TS. BS Tăng Kim Hồng Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu mang tính chất thăm dò, và phân tích thống kê 1. Quản lý s li u: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm tra và làm sạch số liệu 2. Phân tích s li u mang tính chất thăm dò (exploratory data analysis): là công đoạn xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị (graphs) 2.1 Kiểm tra số liệu Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh tabulate (đối với biến số phân loại) và summarize (đồi với biến số liên tục) 2.2 Xử lý “Các giá trị nằm ngoài” (Outliers) Các “outliers” có thể là do: - Sai số trong đo lường - Sai số trong mã hóa dữ liệu - Sai số trong quá trình nghiên cứu (ví dụ là phần thu thập thêm ngoài đề cương nghiên cứu) - Giá trị thực Khi xử lý “outliers”, ta cần phải kiểm tra lại số liệu hết sức cẩn thận trước khi thay đổi và xử lý “outliers” như một giá trị “missing” 2.3 Xem xét phân phối của các biến số - Đối với biến số liên tục, mục đích là để xem biến số có phân phối bình thường hay không. Nếu biến số phân phối bình thường thì số liệu sẽ được trình bày bằng trung bình và độ lệch chuẩn, nếu biến số phân phối không bình thường thì số liệu sẽ được trình bày với trung vị và [25%, 75%] (interquartile ranges). Một số biến số có phân phối không bình thường có thể được chuyển sang dạng khác (transform) - Đối với biến số phân loại, chúng ta có thể thấy được phân phối tần suất của các biến số, dựa trên sự phân phối này, có thể chúng ta sẽ quyết định có gộp/nhóm lại 1 số phân loại với nhau hay không. Biến số phân loại sẽ được trình bày dưới dạng các tỉ lệ phần trăm + Mở file “PULSE” để phân tích. 1 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Xem xét biến số liên tục có phân phối bình thường hay không? Có một số thủ thuật để kiểm tra xem biến số liên tục có phân phối bình thường hay không: 1) So sánh trung bình và trung vị Nếu trung bình và trung vị xấp xỉ bằng nhau thì có nghĩa là phân phối đó phân bố một cách đối xứng – hay nói cách khác phân phối bình thường. Để có được trung bình và trung vị, ta cần phải chạy lệnh như sau: + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Summary statistics -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Thông thường nếu chọn “standard display” thì kết quả chỉ có số trung bình, độ lệch chuẩn, min và max . summarize pulse1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------pulse1 | 92 72.86957 11.00871 48 100 Tuy nhiên nếu chọn “display additional statistics” thì kết quả thể hiện sẽ nhiều hơn, có cả trung bình, trung vị, độ lệch chuẩn, 25%, 75%. 2 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 . summarize pulse1, detail pulse1 ------------------------------------------------------------Percentiles Smallest 1% 48 48 5% 58 54 10% 60 54 Obs 92 25% 64 58 Sum of Wgt. 92 50% 75% 90% 95% 99% 71 80 90 92 100 Largest 94 96 96 100 Mean Std. Dev. 72.86957 11.00871 Variance Skewness Kurtosis 121.1916 .3908803 2.516723 Lưu ý: Nếu chọn lệnh “means” ta cũng có thể có được trung bình và độ lệch chuẩn kèm theo KTC 95% + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Means -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 . mean pulse1 Mean estimation Number of obs = 92 -------------------------------------------------------------| Mean Std. Err. [95% Conf. Interval] -------------+-----------------------------------------------pulse1 | 72.86957 1.147737 70.58973 75.1494 -------------------------------------------------------------- 3 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 2) Vẽ histogram với đường cong thể hiện phân phối bình thường + Graphics -> Histogram -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn số cột (bin)ta muốn có trong đồ thị (ví dụ chọn bin = 10) -> Nếu muốn có đường cong thể hiện phân phối bình thường thì phảichọn “Desity plots) và đánh dấu vào ô “Add normal density plot” 4 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 3) Vẽ đường phân phối bình thường (Normal probability plot) + Graphics -> Distributional graphs -> Normal probability plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) 5 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Tập hợp các điểm tạo thành 1 đường. Đường biểu diễn càng nằm thẳng càng chứng tỏ biến số này phân phối bình thường 4) Vẽ đồ thị box plot + Graphics -> Box plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn đồ thị theo dạng đứng hay nằm ngang (ví dụ chọn Orientation là “Horizontal”) 6 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 25% 50% 75% Nhận xét: Kết quả cho thấy giá trị trung vị (71) hơi thấp hơn trung bình (72,9) chứng tỏ số liệu hơi lệch về bên phải. Đồ thị histogram, normal probability plot và box plot cũng 7 Lớp Phương pháp NCKH – Chương trình CUD UPNT03 cho thấy số liệu hơi lệch về bên phải. Tuy nhiên, phân phối có dạng hình chuông úp ngược, tương đối đối xứng và không quá cao hay quá dẹt, chứng tỏ số liệu phân phối gần như bình thường. Lưu ý: Tính phân phối bình thường của số liệu có thể được kiểm định bằng phép kiểm Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Nếu giá trị p của test > 0,05 => không loại bỏ giả thiết H0 (Số liệu phân phối bình thường). Tuy nhiên, không nên dựa hoàn toàn vào phép kiểm này để kết luận về tính phân phối bình thường của số liệu mà nên dựa vào nhiều cách khác, nhất là các đồ thị để kết luận về tính phân phối bình thường của số liệu 2.4 Xử lý số liệu phân phối không bình thường Trong hấu hết các phép kiểm thống kê mà chúng ta sử dụng, giả định (assumption) của các phép kiểm luôn là “số liệu phân phối bình thường”. Vậy nếu số liệu phân phối không bình thường thì sao? Cách đầu tiên là chúng ta sẽ sử dụng những phép kiểm phi tham số (non-parametric tests). Và cách thứ hai là chúng ta “chuyển dạng” (transform) số liệu để biến từ phân phối không bình thường thành phân phối gần như bình thường. + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Ladder of powers -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Từ kết quả của bảng này, chúng ta có thể chọn ra 1 dạng để chuyển đổi số liệu. Đặc điểm của các dạng chuyển đổi số liệu được trình bày ở bảng dưới đây: 2.5 Khảo sát mối liên quan giữa các biến số (sẽ được trình bày ở những bài sau) 3. Phân tích th ng kê (sẽ được trình bày ở những bài sau) 8