Academia.eduAcademia.edu
Bài giảng hướng dẫn thực hành SPSS Phan Thanh Hồng - Nguyễn Thị Nhung Tháng 5 năm 2010 Mục lục Trang Bài 1. 1.1 1.2 1.3 1.4 1.5 1.6 Bài 2. 2.1 2.2 2.3 Bài 3. Xử lí dữ liệu trên SPSS Giới thiệu và cài đặt phần mềm SPSS . . . . . . . . . . . . . . . . 1.1.1 Giới thiệu phần mềm SPSS . . . . . . . . . . . . . . . . . . 1.1.2 Cài đặt SPSS . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Kh i động SPSS . . . . . . . . . . . . . . . . . . . . . . . Nhập dữ liệu trong SPSS . . . . . . . . . . . . . . . . . . . . . . . Đọc dữ liệu từ những file có sẵn trong SPSS . . . . . . . . . . . . . 1.3.1 Đọc dữ liệu từ file .sav . . . . . . . . . . . . . . . . . . . . 1.3.2 Đọc dữ liệu từ file .xls . . . . . . . . . . . . . . . . . . . . 1.3.3 Đọc dữ liệu từ file.txt . . . . . . . . . . . . . . . . . . . . . Lọc dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mã hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Mã hóa dữ liệu trong nội bộ biến . . . . . . . . . . . . . . . 1.5.2 Mã hóa dữ liệu vào biến mới . . . . . . . . . . . . . . . . . Làm sạch dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Dùng b ng tần số . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Dùng lệnh Sort case để tìm dữ liệu sai trên cửa sổ Data View 1.6.3 Dùng b ng phối hợp hai biến hay ba biến . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lập bảng tần số và tính các đại lượng thống kê mô tả Tóm tắt dữ liệu bằng b ng tần số . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 B ng tần số cho dữ liệu định tính và dữ liệu định lượng có ít biểu hiện 2.1.2 Phân tổ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lập b ng tổng hợp nhiều biến . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 B ng kết hợp hai biến định tính . . . . . . . . . . . . . . . . . . . . 2.2.2 B ng kết hợp ba biến định tính . . . . . . . . . . . . . . . . . . . . . 2.2.3 B ng kết hợp một biến định tính và một biến định lượng . . . . . . . Tính các đại lượng thống kê mô t . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Bài tập ôn luyện . . . . . . . . . . . . . . . . . . . . . . . . . . . . Biểu đồ . . . . . . . . . . . . . . . . . 1 1 1 1 1 2 9 9 10 11 14 20 20 23 26 27 28 28 . . . . . . . . . 30 30 30 31 32 32 34 35 36 40 41 i Mục lục 3.1 3.2 Một số loại biểu đồ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Biểu đồ thanh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Cách vẽ biểu đồ thanh . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Ví dụ: vẽ biểu đồ thanh biểu diễn một biến . . . . . . . . . . . . . . . 3.2.3 Ví dụ: vẽ biểu đồ thanh biểu diễn một biến được phân tách b i một biến khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Biểu đồ tròn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Cách vẽ biểu đồ tròn . . . . . . . . . . . . . . . . . . . . . . . . . . . Biểu đồ g p khúc, diện tích (Line, Area Chart) . . . . . . . . . . . . . . . . . . 3.4.1 Ví dụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Ví dụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Biểu đồ tần số (Histogram) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Cách vẽ biểu đồ tần số (Histogram) . . . . . . . . . . . . . . . . . . . Biểu đồ hộp và râu (Boxplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Cách vẽ biểu đồ hộp và râu (Boxplot) . . . . . . . . . . . . . . . . . . Biểu đồ tán xạ (Scatter plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Cách vẽ biểu đồ tán xạ (Scatter plot) . . . . . . . . . . . . . . . . . . . 41 41 41 43 Bài 4. Kiểm định mối quan hệ giữa hai biến 4.0.2 Ví dụ: kiểm định mối liên hệ hai biến định danh, hay định danh-thứ bậc 4.0.3 Kiểm định mối liên hệ hai biến thứ bậc . . . . . . . . . . . . . . . . . 56 56 59 Bài 5. 5.1 5.2 5.3 Kiểm định về trung bình Kiểm định về trung bình một tổng thể . . . . . . . . . . . . . . . . . . . . . . Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu độc lập Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu cặp . . 61 61 62 64 Bài 6. Phân tích phương sai (ANOVA) 6.0.1 Ví dụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.0.2 Phân tích sâu ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 67 67 69 3.3 3.4 3.5 3.6 3.7 Tài liệu tham khảo ii 43 45 45 46 46 47 48 49 51 51 54 54 71 P.T.Hồng-N.T.Nhung Bài 1 Xử lí dữ liệu trên SPSS 1.1 Giới thiệu và cài đặt phần mềm SPSS Giới thiệu phần mềm SPSS SPSS (viết tắt của Statistical Package for the Social Sciences) là một chương trình máy tính phục vụ công tác thống kê. SPSS được sử dụng rộng rãi trong công tác thống kê xã hội. Thế hệ đầu tiên của SPSS được đưa ra từ năm 1968. Thế hệ mới nh t là thế hệ 18 được giới thiệu từ tháng 8 năm 2008, có c phiên b n cho các hệ điều hành Microsoft Windows, Mac, và Linux / UNIX. SPSS là một hệ thống phần mềm thống kê toàn diện được thiết kế để thực hiện t t c các bước trong các phân tích thống kê từ những tính toán trong thống kê mô t (liệt kê dữ liệu, lập b ng tần số, lập biểu đồ, tính các đại lượng thống kê mô t ,...) đến thực hiện những bài toán trong thống kê suy diễn (kiểm định, tương quan, hồi qui, ...) Cài đặt SPSS Cho đến nay, SPSS có r t nhiều phiên b n khác nhau, phiên b n mới nh t (5/2010) là phiên b n 18.0. Với những tính toán thống kê phổ biến ta có thể cài SPSS với một trong các phiên b n 13.0, 14.0 hay 16.0, ... T t c các phân tích trong tài liệu này được thực hiện trên phiên b n SPSS 13.0. Khởi động SPSS Để kh i động SPSS ta có thể thực hiện theo những cách sau: • Kích đúp vào biểu tượng SPSS trên màn hình; • Vào Start Ñ Program Ñ SPSS for Windows Ñ SPSS 13.0 for Windows Sau khi kh i động, ta được giao diện sau: Bài 1. Xử lí dữ liệu trên SPSS 1.2 Nhập dữ liệu trong SPSS Để nhập một tập dữ liệu vào SPSS, ta thực hiện như sau: Bước 1: Tại cửa sổ SPSS DaTa Editor, ta n vào nút Variable View để khai báo thông tin về các thuộc tính của từng biến trong file dữ liệu. Trong một b ng Variable View • Các hàng là các biến; • Các cột là các thuộc tính của biến. Các thuộc tính của một biến bao gồm: • Tên biến (Name) • Loại dữ liệu (Type) • Số lượng con số hoặc chữ (Width) • Số lượng chữ số thập phân (Decimals) • Mô t biến/nhãn biến (Lable) và nhãn trị số biến (Values) 2 P.T.Hồng-N.T.Nhung 1.2. Nhập dữ liệu trong SPSS • Các giá trị khuyết thiếu do ngư i sử dụng thiết lập (Missing) • Độ rộng của cột (Columns) • Căn lề (Align) • Thang đo của biến (Measure) Khi khai báo hoặc chỉnh sửa các thuộc tính của biến trong cửa sổ Variable View cần chú ý một số điểm sau: • Tên biến ph i bắt đầu bằng một chữ cái và không được kết thúc bằng một d u ch m. Tên của biến là duy nh t, không được đặt trùng tên biến và tên biến không phân biệt chữ hoa, chữ thư ng. • Loại biến: Variable Type xác định loại dữ liệu đối với từng biến. Theo mặc định, mọi biến mới được gi sử là dạng số. Phụ thuộc vào loại dữ liệu được thu thập, ta có thể khai báo dưới những kiểu sau: dữ liệu là dạng số (numeric), d u ph y (comma), d u ch m (dot), ghi chú khoa học (Scientific notation), ngày tháng (Date), đô-la (Dollar), đơn vị tiền riêng (custom currency) và chuỗi (string). • Nhãn của biến dùng để mô t rõ hơn về tên của biến do tên của biến chỉ có độ dài tối đa là 8. Nhãn của biến có thể có độ dài đến 256 kí tự. • Ta có thể gán nhãn cho từng giá trị của biến. Tính năng này đặc biệt tiện lợi khi ta dùng các số để mã hóa các biến định tính. Ví dụ.... Biến được mã hóa như vậy có thể dùng cho nhiều phân tích khác nhau. Hơn nữa, với nhãn của các giá trị, kết qu tính ra sẽ được trình bày rõ ràng hơn. • Các giá trị khuyết thiếu do ngư i sử dụng thiết lập (Missing). Những giá trị không thích ứng với kiểu khai báo của biến sẽ được coi là giá trị khuyết thiếu. Đối với biến kiểu số, các ô trống được hiểu là giá trị khuyết và được đánh d u bằng d u phân cách thập phân. Nhiều thủ tục trong SPSS sẽ loại các giá trị khuyết ra khỏi các bước tính toán và các kết qu phân tích chỉ dựa trên phần số liệu không khuyết. – Ta có thể nhập đến 3 trị số khuyết riêng biệt, một phạm vi kho ng cách trị số khuyết hoặc một phạm vi cộng với một trị số khuyết riêng biệt; – Các phạm vi có thể được chỉ định cho các biến dạng số; – Các trị số khuyết cho các biến dạng chuỗi ph i có độ dài không vượt quá 8 kí tự. • Số đo của biến có thể thang đo định danh (Nominal), thang đo thứ bậc (Ordinal) hoặc thang đo kho ng, tỉ lệ (gọi chung là Scale): – Thang đo định danh: Thang đo định danh dùng cho các biến định tính. Số đo của các biến này là các mã số để phân loại đối tượng. Giữa các mã số đây không có quan hệ hơn kém, chỉ dùng để đếm tần số xu t hiện của các biểu hiện. Một số ví dụ về thang đo này là: biến giới tính với các số đo là: Nam hoặc Nữ; biến màu sắc với số đo là: xanh, đỏ, tím, vàng,...; biến khu vực sống với các số đo: Thành phố, Thị xã, Nông thôn, Miền núi,... P.T.Hồng-N.T.Nhung 3 Bài 1. Xử lí dữ liệu trên SPSS – Thang đo thứ bậc: Thang đo thứ bậc thư ng dùng cho các biến định tính, đôi khi dùng cho c biến định lượng. Trong thang đo này giữa các số đo của các biến có quan hệ thứ bậc hơn kém. Tuy nhiên, sự chênh lệch giữa các số đo không nh t thiết bằng nhau. Ví dụ biến đánh giá thái độ đối với ch t lượng dịch vụ mạng Internet tại nhà có số đo là: Không hài lòng, hài lòng, r t hài lòng. – Thang đo kho ng: Thang đo thứ bậc thư ng dùng cho các biến định lượng. Thang đo kho ng là thang đo thứ bậc có các kho ng cách đều nhau. Các phép tính cộng trừ đều có nghĩa nhưng không có giá trị không xác định một cách chính xác và không thể l y tỉ lệ giữa các số đo. Ví dụ số đo nhiệt độ, số đo chỉ số IQ, chỉ số EQ,... – Thang đo tỉ lệ: Thang đo tỉ lệ dùng cho các biến định lượng. Thang đo tỉ lệ là thang đo kho ng, hơn nữa thang đo này có giá trị không xác định một cách chính xác và có thể l y tỉ lệ giữa các số đo. Ví dụ về thang đo này đơn vị đo tiền tệ (VND, dollar, pound, yen,...); đơn vị đo chiều dài (cm, m, km,...); đơn vị đo khối lượng (kg, t n, tạ, yến,...). Bước 2: Tại cửa sổ Data Editor, nh n vào nút Data View để nhập từng dữ liệu trong mỗi ô. Trong b ng Data View • Mỗi cột là mỗi biến Variable; • Mỗi hàng là một đối tượng cases. Để chèn một đối tượng (hàng) mới giữa các đối tượng đã có sẵn: • Trong b ng Data View, chọn b t kì ô nào trong đối tượng nằm dưới vị trí cần chèn đối tượng mới; • Từ thanh menu chọn Data Ñ Insert Cases. Để chèn một biến (cột) mới vào các biến đã có sẵn: • Trong b ng Data View, chọn b t kì ô nào trong biến nằm bên ph i biến cần chèn biến mới; • Từ thanh menu chọn Data Ñ Insert Variable. Gi sử ta đang muốn nhập một tập dữ liệu về điều tra thị trư ng thức ăn nhanh FastFood được cho trong b ng dưới đây vào trong SPSS: 4 P.T.Hồng-N.T.Nhung 1.2. Nhập dữ liệu trong SPSS Đối với tập dữ liệu trên ta có 9 biến là: Tuoi (tuổi), GioiTinh (giới tính), NgheNghiep (nghề nghiệp), ThuNhap (thu nhập), Gia (giá mua FastFood), ChonDoQC, ChonDoTL, ChonDoSP, ChonDoGC (yếu tố nh hư ng đến quyết định dùng FastFood tương ứng là do qu ng cáo, tiện lợi, s n phẩm, giá c ) thu thập trên 100 đối tượng. Để nhập tập dữ liệu này vào trong SPSS, đầu tiên ta vào b ng Variable View để khai báo các thuộc tính của các biến. Chẳng hạn, với biến Tuoi ta khai báo các thuộc tính như sau: • Name: Tuoi • Type: Numeric (dạng số) • Width: 2 (độ dài mỗi giá trị tuổi là 2) • Decimals: 0 (không có chữ số thập phân) • Lable: (không chú thích gì thêm về biến) • Values: None (không cần gi i thích gì về kiểu giá trị của biến) • Missing: None (không có giá trị khuyết) • Columns: 8 (độ rộng của cột biến là 8) • Align: Right (căn lề bên ph i) • Measure: Scale (giá trị của biến là tuổi lượng) P.T.Hồng-N.T.Nhung thang đo tỉ lệ nên khai báo là thang đo định 5 Bài 1. Xử lí dữ liệu trên SPSS Với biến NgheNghiep ta khai báo các thuộc tính như sau: • Name: NgheNghiep • Type: String (dạng chuỗi) • Width: 4 (độ dài mỗi giá trị về nghề nghiệp là 4) • Decimals: 0 (không có chữ số thập phân) • Lable: Nghe nghiep (chú thích thêm về tên biến) • Values: HSSV = "hoc sinh + sinh vien", CNVC = "cong nhan vien chuc", NVVP = "nhan vien van phong", Khac = "nghe khac" (chú thích thêm về từng giá trị của biến) • Missing: None (không có giá trị khuyết) • Columns: 8 (độ rộng của cột biến là 8) • Align: Left (căn lề bên trái) • Measure: Nominal (giá trị của biến là nghề nghiệp thang đo định danh) thang đo định danh nên khai báo là Với biến Gia ta khai báo các thuộc tính như sau: • Name: Gia • Type: Numeric (dạng số) • Width: 1 (độ dài mỗi giá trị về nghề nghiệp là 4) • Decimals: 0 (không có chữ số thập phân) • Lable: Gia mua FastFood (chú thích thêm về tên biến) • Values: 1 = "12-20 (nghin)", 2 = "20-30 (nghin)", 3 = "30-40 (nghin)", 4 = "> 40 (nghin)" (chú thích về từng giá trị của biến) 6 P.T.Hồng-N.T.Nhung 1.2. Nhập dữ liệu trong SPSS • Missing: None (không có giá trị khuyết) • Columns: 8 (độ rộng của cột biến là 8) • Align: Left (căn lề bên trái) • Measure: Ordinal (giá trị của biến là giá thứ bậc) thang đo thứ bậc nên khai báo là thang đo Hoàn toàn tương tự cho các biến khác ta có được b ng Variable View cho 9 biến như sau: Sau khi đã khai báo các thuộc tính của các biến trong cửa sổ Variable View, ta vào cửa sổ Data View nhập giá trị cho từng biến như đã được điều tra. P.T.Hồng-N.T.Nhung 7 Bài 1. Xử lí dữ liệu trên SPSS Để lưu dữ liệu vừa được tạo ra dưới đuôi của SPSS .sav, ta vào File file cần lưu và thư mục để lưu trong máy tính. 8 Ñ Save as để đánh tên P.T.Hồng-N.T.Nhung 1.3. Đọc dữ liệu từ những file có sẵn trong SPSS 1.3 Đọc dữ liệu từ những file có sẵn trong SPSS SPSS có thể đọc dữ liệu từ r t nhiều kiểu file khác nhau. Ngoài dữ liệu dưới dạng file.sav của SPSS, SPSS còn cho đọc file dữ liệu dưới một số dạng thông dụng như file.xls (Excel File), file.txt (Text File) và file dữ liệu tạo ra từ một số phần mềm thống kê khác như file.dta (Stata File), file.wf1 (Eviews Workfile), ... Đọc dữ liệu từ file .sav Để đọc dữ liệu từ một file.sav, chẳng hạn file dữ liệu DuLieuFastFood.sav, ta vào File Open Data và chọn đến thư mục để file dữ liệu và m file: Ñ P.T.Hồng-N.T.Nhung Ñ 9 Bài 1. Xử lí dữ liệu trên SPSS Đọc dữ liệu từ file .xls Để đọc dữ liệu từ một file.xls, chẳng hạn file dữ liệu DuLieuFastFood.xls, ta vào File Open Data và chọn đến thư mục để file dữ liệu và m file: Ñ Ñ Khi cửa sổ hiện ra hộp thoại sau ta n vào OK là m được dữ liệu vào SPSS: 10 P.T.Hồng-N.T.Nhung 1.3. Đọc dữ liệu từ những file có sẵn trong SPSS Đọc dữ liệu từ file.txt Để đọc dữ liệu từ một file.txt, chẳng hạn file dữ liệu DuLieuFastFood.txt, ta vào File Open Data và chọn đến thư mục để file dữ liệu và m file: Ñ Ñ Khi màn hình trên hiện ra hộp thoại sau ta n vào Open để m file dữ liệu vào SPSS. Khi hiện ra cửa sổ sau ta n Next: P.T.Hồng-N.T.Nhung 11 Bài 1. Xử lí dữ liệu trên SPSS Khi trên màn hình hiện ra hộp thoại sau ta chọn Yes cho câu hỏi Are variable names include at the top of your file? và sau đó n vào Next: Khi trên màn hình hiện ra hộp thoại sau ta n vào Next: 12 P.T.Hồng-N.T.Nhung 1.3. Đọc dữ liệu từ những file có sẵn trong SPSS Khi trên màn hình hiện ra hộp thoại sau ta n vào Next: Khi trên màn hình hiện ra hộp thoại sau ta n vào Next: P.T.Hồng-N.T.Nhung 13 Bài 1. Xử lí dữ liệu trên SPSS Và cuối cùng khi trên màn hình hiện ra hộp thoại sau ta n vào Finish: 1.4 Lọc dữ liệu SPSS cho phép ta lọc ra một nhóm các quan sát thỏa mãn những điều kiện nh t định. Nhóm con các quan sát có thể rút ra ngẫu nhiên, hoặc chọn theo số thứ tự các quan sát, kho ng giới hạn về th i gian, giá trị và kho ng giới hạn của một biến, theo một biểu thức số học, một biểu thức logic hay một hàm số học nào đó. Để tiến hành lọc dữ liệu, ta vào Data Select Cases... và trên màn hình hiện ra hộp thoại: Ñ 14 P.T.Hồng-N.T.Nhung 1.4. Lọc dữ liệu Với hộp thoại này, ta sử dụng các nút trong khung Select để n định cách lọc dữ liệu. Ta có thể chọn một trong các kh năng sau: • Đưa t t c các quan sát vào phân tích thì n nút All cases (mặc định); • Chọn một số quan sát thỏa mãn một số điều kiện nh t định thì n nút If condition is satisfied để cho phím If nổi lên rồi n phím đó. Khi đó hộp thoại sau sẽ hiện ra: Trên hộp thoại này, ta thiết lập một biểu thức so sánh trong khung bên ph i hộp thoại bằng cách kết hợp các biến từ khung danh sách biến phía bên trái, các hàm số trong khung Functions góc dưới bên ph i cùng các phím số, phím phép tính số học, phép so sánh, phép tính logic trong khung hộp thoại hoặc từ bàn phím: Phép toán số học + cộng - trừ  nhân / chia P.T.Hồng-N.T.Nhung Phép toán so sánh < nhỏ hơn > lớn hơn <= nhỏ hơn hoặc bằng >= lớn hơn hoặc bằng = bằng = khác Phép toán logic  phủ định & và | hoặc 15 Bài 1. Xử lí dữ liệu trên SPSS Chẳng hạn, để lọc ra dữ liệu về nam trong tập dữ liệu tại khung của hộp thoại ta đánh biểu thức logic GioiTinh = "Nam" và n nút Continue: Khi đó màn hình hiện ra hộp thoại: Để loại đi những dữ liệu về nữ ra khỏi tập dữ liệu tại khung Unselected Cases Are ta chọn Deleted và ta được thông tin về nam giới được điều tra trong tập dữ liệu: 16 P.T.Hồng-N.T.Nhung 1.4. Lọc dữ liệu Nếu ta muốn lọc ra dữ liệu về nam có độ tuổi lớn hơn 50 trong tập dữ liệu tại khung của hộp thoại ta đánh biểu thức logic GioiTinh = "Nam" & Tuoi > 50 và n nút Continue: Khi đó màn hình hiện ra hộp thoại: P.T.Hồng-N.T.Nhung 17 Bài 1. Xử lí dữ liệu trên SPSS Nếu chỉ muốn lọc riêng ra những thông tin về nam giới và có độ tuổi trên 50, tại khung Unselected Cases Are ta chọn Deleted và ta được: • Để l y ra một mẫu ngẫu nhiên từ tổng thể quan sát ta n nút Random sample of cases để cho phím Sample hiện lên và n vào nút đó. Sau đó màn hình hiện tiếp ra hộp thoại sau: Trên hộp thoại này, ta có thể – 18 n Approximately rồi điền một số nguyên từ 1 đến 99 vào ô trống để chỉ phần trăm số phần tử trong mẫu so với số phần tử của toàn bộ tổng thể; P.T.Hồng-N.T.Nhung 1.4. Lọc dữ liệu – n Exactly rồi điền một số nguyên k trong ô trống liền bên cạnh và một số nguyên n lớn hơn trong ô trống tiếp theo để tạo ra một mẫu gồm k quan sát được rút ra ngẫu nhiên nhiên từ n quan sát đầu tiên của tập số liệu. Chẳng hạn ta muốn chọn ra ngẫu nhiên 20 ngư i được điều tra từ 100 ngư i trong b ng dữ liệu, ta điền 20 và 100 vào hai ô trống trong nút Exactly rồi n nút Continue: Khi màn hình hiện tiếp ra hộp thoại sau thì n OK: và ta được tập dữ liệu gồm thông tin của 20 ngư i trong mẫu: P.T.Hồng-N.T.Nhung 19 Bài 1. Xử lí dữ liệu trên SPSS 1.5 Mã hóa dữ liệu Trong quá trình phân tích, nhiều trư ng hợp ta ph i mã hóa lại các giá trị của biến vì một mục đích nào đó. Ta có thể mã hóa lại các giá trị trong nội bộ một biến có sẵn hoặc lập một biến mới để chứa các giá trị được mã hóa lại. Mã hóa dữ liệu trong nội bộ biến Ta có thể tiến hành mã hóa lại các biến kiểu số hoặc các biến kiểu chuỗi kí tự. Nếu muốn mã hóa lại đồng th i nhiều biến một lúc, các biến đó ph i có cùng kiểu số hoặc cùng kiểu chuỗi kí tự. Để thực hiện việc mã hóa dữ liệu trong nội bộ biến ta vào Transform Recode Into Same Variables... và màn hình hiện ra hộp thoại: Ñ 20 Ñ P.T.Hồng-N.T.Nhung 1.5. Mã hóa dữ liệu Chẳng hạn, ta định mã hóa lại các giá trị trong biến tuổi thành các kho ng tuổi ¤ 14 14  24 24  45 45  60 ¡ 60 ta thực hiện như sau: • Chọn từ khung bên trái biến Tuoi để đưa vào khung Variable phía bên ph i; • Nh n phím Old and New Values để qui định cách mã hóa biến Tuoi và hộp thoại sau sẽ hiện ra: • Trong hộp thoại này để phân kho ng mã hóa ta n nút Range trong Old Value thiết lập các kho ng và thay thế bằng các giá trị mã hóa mới trong New Value rồi n nút Add để chuyển cách mã hóa vào khung Old Ñ New:, cụ thể như sau: Kho ng tuổi ¤ 14 14  24 24  45 45  60 ¡ 60 Old Value Range: Lowest through 14 Range: 14 though 24 Range: 24 though 45 Range: 45 though 60 Range: 60 though highest New Value 1 2 3 4 5 Khi màn hình hiện ra hộp thoại sau ta n Continue • Cuối cùng khi màn hình hiện ra hộp thoại sau thì ta n OK: P.T.Hồng-N.T.Nhung 21 Bài 1. Xử lí dữ liệu trên SPSS • Và ta được tập dữ liệu với biến tuổi đã được mã hóa: Để mã hóa hai biến định tính là GioiTinh và NgheNghiep, ta cũng tiến hành làm tương tự: • Chọn từ khung bên trái biến GioiTinh va NgheNghiep để đưa vào khung Variable phía bên ph i; • Nh n phím Old and New Values để qui định cách mã hóa biến GioiTinh và NgheNghiep và khi hộp thoại mã hóa hiện ra ta n nút Value trong Old Value thiết lập các giá trị cũ được thay thế bằng các giá trị mã hóa mới trong New Value rồi n nút Add để chuyển cách mã hóa vào khung Old New:, cụ thể như sau: Ñ 22 P.T.Hồng-N.T.Nhung 1.5. Mã hóa dữ liệu Old Value New Value Nam 1 Nu 0 HSSV 1 CNVC 2 NVVP 3 Khac 4 Khi màn hình hiện ra hộp thoại sau ta n Continue và sau đó thì n Ok. • Và ta được tập dữ liệu với hai biến GioiTinh và NgheNghiep đã được mã hóa: Mã hóa dữ liệu vào biến mới Ta có thể mã hóa lại một biến đã có sẵn và lập một biến mới để chứa các giá trị mới được mã hóa lại. Ta có thể mã hóa biến kiểu số hoặc biến kiểu kí tự, có thể chuyển một biến kiểu số thành biến kiểu chuỗi kí tự và ngược lại chuyển biến kiểu chuỗi kí tự thành biến kiểu số. Nếu muốn mã hóa lại nhiều biến một lúc, các biến đó ph i cùng kiểu số hoặc cùng kiểu chuỗi kí tự. Để thực hiện mã hóa dữ liệu vào một biến mới ta vào Transform Recode Into Different Variables... và màn hình hiện ra hộp thoại: Ñ P.T.Hồng-N.T.Nhung Ñ 23 Bài 1. Xử lí dữ liệu trên SPSS Chẳng hạn, ta định mã hóa lại các giá trị trong biến tuổi thành các kho ng tuổi ¤ 14 14  24 24  45 45  60 ¡ 60 và đặt trong một biến mới là TuoiMoi ta thực hiện như sau: • Chọn từ khung bên trái biến Tuoi để đưa vào khung Variable phía bên ph i, trong khung Output Variable đặt tên cho biến mới trong phần Name và gán nhãn cho biến mới (nếu cần) trong phần Label, chẳng hạn, Name: TuoiMoi, Label: chia Tuoi thanh cac khoang. Sau đó n change để khẳng định việc thay đổi: • Nh n phím Old and New Values để qui định cách mã hóa biến Tuoi và hộp thoại sau sẽ hiện ra: 24 P.T.Hồng-N.T.Nhung 1.5. Mã hóa dữ liệu • Trong hộp thoại này để phân kho ng mã hóa ta n nút Range trong Old Value thiết lập các kho ng và thay thế bằng các giá trị mã hóa mới trong New Value rồi n nút Add để chuyển cách mã hóa vào khung Old Ñ New:, cụ thể như sau: Kho ng tuổi ¤ 14 14  24 24  45 45  60 ¡ 60 Old Value Range: Lowest through 14 Range: 14 though 24 Range: 24 though 45 Range: 45 though 60 Range: 60 though highest New Value 1 2 3 4 5 Khi màn hình hiện ra hộp thoại sau ta n Continue • Cuối cùng khi màn hình hiện ra hộp thoại sau thì ta n OK: P.T.Hồng-N.T.Nhung 25 Bài 1. Xử lí dữ liệu trên SPSS • Ta có thể vào Variable View để khai báo lại một số thuộc tính của biến TuoiMoi cho phù hợp và ta được tập dữ liệu với biến tuổi đã được mã hóa: 1.6 Làm sạch dữ liệu Trong quá trình nhập dữ liệu, trong nhiều trư ng hợp ta có thể nhập nhầm dữ liệu và nếu ta xử lí dữ liệu trên file dữ liệu nhầm này sẽ dẫn đến kết qu phân tích bị sai lệch. Phương pháp loại đi những dữ liệu sai này được gọi là phương pháp làm sạch dữ liệu. Trong phần này ta sẽ giới thiệu một số phương pháp làm sạch dữ liệu trên SPSS. 26 P.T.Hồng-N.T.Nhung 1.6. Làm sạch dữ liệu Dùng bảng tần số Để tìm các lỗi dữ liệu bị nhầm, ta có thể lập b ng tần số để tìm ra những dữ liệu lạ để sửa. Chẳng hạn, trong file dữ liệu LamSachDuLieu.sav các biến GioiTinh và Nghe đều được mã hóa (Biến GioiTinh có hai giá trị là 0 và 1, biến Nghe có ba giá trị là 1,2,3,4), nếu ta lập b ng tần số cho biến GioiTinh th y kết qu như sau: thì ta biết ngay là các giá trị là 11 đã bị nhập nhầm. Để tìm ra các giá trị sai này để sửa ta có thể dùng lệnh Find để tìm, cụ thể như sau: Bước 1: Trong cửa sổ Data View bôi đen cột GioiTinh và vào Edit Find..., màn hình hiện ra hộp thoại: Ñ Bước 2: Điền dữ liệu sai cần tìm trong cột GioiTinh, đây là 11 trong dòng Find What và n Find Next. Khi đó những ô dữ liệu sai trong cột dữ liệu sẽ được hiện trắng, ta n Find Next lên P.T.Hồng-N.T.Nhung 27 Bài 1. Xử lí dữ liệu trên SPSS tiếp để tìm và sửa những dữ liệu sai theo ý muốn. Dùng lệnh Sort case để tìm dữ liệu sai trên cửa sổ Data View Ta có thể sử dụng lệnh Sort Case trong Data để tìm những lỗi đơn gi n ngay trên cửa sổ dữ liệu (Data View), chẳng hạn với dữ liệu về giới tính, ta chỉ cần chọn lệnh sắp xếp dữ liệu theo thứ tự tăng dần và nếu có những dữ liệu lớn hơn 1 thì đó chính là những dữ liệu lỗi. Cụ thể ta tiến hành như sau: Bước 1: Vào Data Sort Cases..., màn hình hiện ra hộp thoại: Ñ Bước 2: Chọn biến GioiTinh bên trái để đưa vào khung Sort by bên ph i, trong khung Sort Order ta chọn Ascending và n OK. Dùng bảng phối hợp hai biến hay ba biến Khi lập b ng tần số kết hợp biến tuổi và biến nghề nghiệp: 28 P.T.Hồng-N.T.Nhung 1.6. Làm sạch dữ liệu bạn th y có trư ng hợp nhân viên văn phòng (mã hóa 3) mà tuổi chỉ có 8 nên bạn nghĩ rằng một trong hai biến đã nhập sai. Trong trư ng hợp này ta ph i tìm ra ô nhập sai và sửa lại. Để tìm ra ô nhập sai trong trư ng hợp này ta dùng lệnh Select Cases, cụ thể như sau: Bước 1: Vào Data Select Cases..., khi màn hình hiện ra hộp thoại thì ta chọn If Condition is satisfied để nút If hiện ra và n vào. Bước 2: Chọn biến Tuoi và biến NgheNghiep bên trái để đưa vào khung bên ph i với điều kiện logic Tuoi=8 & NgheNghiep="2" Ñ tiếp đó n Continue và n tiếp OK. Bước 3: Khi lệnh này được thực hiện, SPSS sẽ tạo ra một biến mới là filter $, biến này nhận giá trị 0 tại t t c các tình huống không thỏa mãn và 1 tại tình huống thỏa mãn điều kiện của lệnh If. Những giá trị là 1 trong biến filter $ chính là những trư ng hợp sai mà ta cần tìm để sửa. P.T.Hồng-N.T.Nhung 29 Bài 2 Lập bảng tần số và tính các đại lượng thống kê mô tả 2.1 Tóm tắt dữ liệu bằng b ng tần số Bảng tần số cho dữ liệu định tính và dữ liệu định lượng có ít biểu hiện Để lập b ng tần số cho các biến định tính hoặc dữ liệu định lượng có ít biểu hiện trong tập dữ liệu, Bước 1: Vào Analyze Descriptive Statistics Frequencies.... Màn hình hiện ra hộp thoại: Ñ Ñ Bước 2: Chọn các biến cần lập b ng tần số bên trái đưa vào khung Variable bên ph i và n OK. đây, ta có thể tiến hành lập b ng tần số cho một biến hoặc một số biến cùng một lúc, chẳng hạn khi chọn biến GioiTinh và biến Gia trong cửa sổ Output nhận được kết qu sau: 30 2.1. Tóm tắt dữ liệu bằng bảng tần số Kết qu về b ng tần số cho ta những thông tin về tần số, tần su t của những giá trị trong biến mà ta quan tâm. Chẳng hạn với biến GioiTinh và biến Gia ta có thể th y số lượng cũng như tỉ lệ nam và nữ trong mẫu cũng như số lượng và tỉ lệ của kho ng giá của một su t ăn FastFood điều tra trong mẫu. Phân tổ dữ liệu Khi tập dữ liệu định lượng có nhiều biểu hiện, việc tóm tắt bằng b ng tần số tương tự trên sẽ dài dẫn đến m t đi tính ch t tóm lược thông tin. Trong trư ng hợp này ta sẽ tiến hành phân tổ dữ liệu. Để phân tổ dữ liệu, ta thực hiện tương tự như phần mã hóa số liệu. Ta có thể chọn mã hóa thành đúng biến định lượng đã cho hoặc mã hóa thành biến mới, sau đó tính tần số cho biến đã được mã hóa. Chẳng hạn để phân tổ cho biến tuổi thành các kho ng tuổi ¤ 14 14  24 24  45 45  60 ¡ 60 đầu tiên ta mã hóa biến tuổi thành biến mới là PhanTuoi. Khi hộp thoại sau hiện ra ta chọn Output variable are strings P.T.Hồng-N.T.Nhung 31 Bài 2. Lập bảng tần số và tính các đại lượng thống kê mô tả và mã hóa tương ứng như sau: Kho ng tuổi Old Value New Value ¤ 14 Range: Lowest through 14 <= 14 14  24 Range: 14 though 24 14 - 24 24  45 Range: 24 though 45 24 - 45 45  60 Range: 45 though 60 45 - 60 ¡ 60 Range: 60 though highest > 60 Sau đó, lập b ng tần số cho biến PhanTuoi và được kết qu sau: 2.2 Lập b ng tổng hợp nhiều biến Bảng kết hợp hai biến định tính Khi ta cần đưa ra tần số, tần su t của các biểu hiện của một biến định tính theo sự phân loại của một biến khác, ví dụ xét ngành nghề của những ngư i được điều tra theo giới tính, ta có thể dùng lệnh Basic Tables (hoặc General Tables), cụ thể như sau: 32 P.T.Hồng-N.T.Nhung 2.2. Lập bảng tổng hợp nhiều biến Bước 1: Vào Analyze Tables: Ñ Tables Ñ Basic Tables.... Màn hình hiện ra hộp thoại Basic Bước 2: Chọn hai biến định tính bên trái đưa vào khung bên ph i, cụ thể chọn biến NgheNghiep đưa vào ô Down và biến GioiTinh đưa vào ô Across. đây, ta có thể tiến hành lập b ng tần số cho một biến hoặc một số biến cùng một lúc, chẳng hạn khi chọn biến GioiTinh và biến Gia trong cửa sổ Output nhận được kết qu sau: Bước 3: Chọn những hàm thống kê cần tính bằng cách n Statistics P.T.Hồng-N.T.Nhung 33 Bài 2. Lập bảng tần số và tính các đại lượng thống kê mô tả Đối với biến định tính, các hàm thư ng dùng là: count (tần số), col% (phần trăm theo cột), row% (phần trăm theo cột). Trong ví dụ này ta chọn count và row%, chọn xong n nút Add để đưa vào ô bên ph i và n Continue. Bước 4: Tr lại hộp thoại trước, chọn Totals... nếu ta muốn tính tổng tần số trên dòng (cột) và cuối cùng n OK. Cửa sổ Output sẽ hiện ra kết qu sau: Bảng kết hợp ba biến định tính Khi ta cần biết một cách cụ thể hơn cơ c u của giá mua FastFood của những ngư i được điều tra phân tách theo nhóm giới tính đối với từng nghề nghiệp thì ta ph i lập b ng phối hợp ba biến với nhau. Ta có thể dùng lệnh Basic Tables (hoặc General Tables). Cách tiến hành hoàn toàn tương tự như trư ng hợp lập b ng tần số cho hai biến định tính. Bước 1: M hộp thoại Basic Tables.... Ta đưa hai biến NgheNghiep và GioiTinh vào ô Across và đưa biến Gia vào ô Down Bước 2: Khi đưa hai biến vào ô Across thì lúc này có hai biến vị trí cột nên phần dưới cùng của hộp thoại Basic Table sẽ nổi rõ lên để ta xác định hai cách phối hợp biến với nhau: • All Combination (nested): hai biến trong cùng ô sẽ phân nhóm lồng ghép với nhau theo thứ tự biến được đưa vào trong ô Across. Trong trư ng hợp của ta các quan sát được phân chia theo ngành nghề, sau đó mỗi ngành nghề được phân chia theo từng giới tính nam và nữ. • Each separately (stacked): hai biến được phân chia độc lập với nhau. Các quan sát được phân chia theo ngành nghề, sau đó các quan sát được phân chia theo giới tính riêng biệt. Bước 3: Cách xác lập những hàm thống kê cũng tương tự như phần lập cho hai biến, nhưng trong phần này ta chỉ nên chọn một trong hai hàm hoặc là count hoặc là Row% chứ không nên 34 P.T.Hồng-N.T.Nhung 2.2. Lập bảng tổng hợp nhiều biến chọn cùng một lúc c hai vì qui mô của b ng khá lớn. Nếu chọn cùng một lúc c hai thì sau đó ph i n nút Layout... của hộp thoại Basic Tables để chọn cách trình bày là In separate tables để ta có thể lật từng lớp của b ng lên xem: Bảng kết hợp một biến định tính và một biến định lượng Khi ta cần những đại lượng thống kê mô t của một biến định lượng theo sự phân loại của một biến định tính, chẳng hạn ta muốn tính tuổi trung bình theo giới tính trong nhóm được điều tra, ta có thể dùng lệnh Basic Tables, cụ thể như sau: Bước 1: Tại hộp thoại Basic Tables, ta đưa biến Tuoi vào ô Summaries, đưa biến GioiTinh vào ô Across Bước 2: Chọn những đại lượng thống kê mô t cần tính, chẳng hạn trung bình (Mean) và trung vị Median Bước 3: Trong cửa sổ Output ta nhận được kết qu sau: P.T.Hồng-N.T.Nhung 35 Bài 2. Lập bảng tần số và tính các đại lượng thống kê mô tả 2.3 Tính các đại lượng thống kê mô t Trong một tập dữ liệu ta có thể tính các đại lượng thống kê mô t của tập dữ liệu như • Các đại lượng đo độ tập trung: trung bình cộng, trung vị, mode; • Các đại lượng đo độ phân bố: tứ phân vị và phân vị thứ p; • Các đại lượng đo độ phân tán: kho ng biến thiên, độ tr i giữa, phương sai, độ lệch chuẩn; • Các đại lượng mô t hình dáng của tập dữ liệu: hệ số b t đối xứng Skewness, hệ số đo đọ nhọn Kurtosis. Trước hết ta nhắc lại định nghĩa và công thức tính toán những đại lượng này. • Trung bình cộng đơn gi n được tính bằng cách cộng t t c các giá trị quan sát của tập dữ liệu rồi chia cho số quan sát của tập dữ liệu đó; • Trung vị là giá trị đứng giữa của tập dữ liệu đã được sắp thứ tự. Như vậy, không kể trung vị sẽ có 50% số quan sát của tập dữ liệu có giá trị lớn hơn trung vị và 50% số quan sát của tập dữ liệu có giá trị nhỏ hơn trung vị; • Mode của một tập dữ liệu là giá trị xu t hiện nhiều nh t trong tập dữ liệu. • Tứ phân vị chia tập dữ liệu đã sắp xếp theo trật tự tăng dần thành bốn phần có số quan sát bằng nhau. Tứ phân vị bao gồm ba tứ phân vị: tứ phân vị thứ nh t Q1 , tứ phân vị thứ hai Q2 (chính là trung vị) và tứ phân vị thứ ba Q3 . Trong tập dữ liệu có 25% số quan sát của tập dữ liệu nhỏ hơn hoặc bằng Q1 , 50% số quan sát của tập dữ liệu nhỏ hơn hoặc bằng Q2 và có 75% số quan sát của tập dữ liệu nhỏ hơn hoặc bằng Q3 . • Phân vị thứ p của một tập dữ liệu đã được sắp thứ tự là giá trị chia tập dữ liệu thành hai phần, một phần gồm p% số quan sát có giá trị nhỏ hơn hoặc bằng phân vị thứ p, phần còn lại có (100  p)% số quan sát lớn hơn hoặc bằng phân vị thứ p. • Kho ng biến thiên của một tập dữ liệu là hiệu giữa giá trị lớn nh t và giá trị nhỏ nh t của tập dữ liệu. • Độ tr i giữa của một tập dữ liệu là hiệu độ chênh lệch giữa tứ phân vị thứ ba và tứ phân vị thứ nh t của tập dữ liệu. ° • Phương sai của một tập dữ liệu tổng thể, kí hiệu là σ 2 , được xác định b i công thức: N (xi  µ)2 2 σ = i=1 , đây µ là trung bình của tổng thể và N là số quan sát trong tổng N thể. ° • Phương sai của một tập dữ liệu mẫu, kí hiệu là s2 , được xác định b i công thức: s2 = n 2 i=1 (xi  x) , đây x là trung bình của mẫu và n là số quan sát trong mẫu. n1 • Độ lệch chuẩn của một tập dữ liệu tổng thể, kí hiệu là σ, là căn bậc hai của phương sai của tổng thể: σ= 36 d° N i=1 (xi N  µ)2 . P.T.Hồng-N.T.Nhung 2.3. Tính các đại lượng thống kê mô tả • Độ lệch chuẩn của một tập dữ liệu mẫu, kí hiệu là s, là căn bậc hai của phương sai mẫu: s= d° n i=1 (xi  x)2 . n1 Chẳng hạn, để tính những đại lượng thống kê mô t như: trung bình, trung vị, phương sai, độ lệch chuẩn của biến Tuoi: Bước 1: Vào Analyze Ñ Descriptive Statistics Ñ Descriptive... và khi màn hình sẽ hiện ra hộp thoại sau thì ta chọn biến Tuoi để đưa vào khung Variable(s) bên ph i: Bước 2: n tiếp vào nút Options để chọn tính những đại lượng thống kê mô t cho biến tuổi và màn hình hiện ra hộp thoại: Ta muốn tính đại lượng nào thì chọn vào đại lượng đó để hiện kết qu ra cửa sổ Output sau đó n Continue và khi màn hình hiện ra hội thoại cũ thì n OK Mean Sum Std.Deviation Minimum Maximum Variance Range SE mean Kurtosis Skewness P.T.Hồng-N.T.Nhung Trung bình cộng Tổng các giá trị của biến Độ lệch chuẩn Giá trị nhỏ nh t Giá trị lớn nh t Phương sai Kho ng biến thiên độ lệch chuẩn của trung bình mẫu Hệ số đo độ nhọn Hệ số b t đối xứng 37 Bài 2. Lập bảng tần số và tính các đại lượng thống kê mô tả Cửa sổ Output sẽ cho ta kết qu sau: Tính tứ phân vị hay phân vị thứ p tùy ý của tập dữ liệu, chẳng hạn cho biến Tuoi: Bước 1: Vào Analyze Descriptive Statistics Frequencies... và màn hình hiện ra hộp thoại: Ñ Ñ Bước 2: Chọn các biến định lượng cần tính bên trái đưa vào khung Variable bên ph i, n Statistics và nếu ta không muốn đưa b ng tần số thì không chọn ô Display frequency tables. Bước 3: Khi màn hình hiện ra hộp thoại: ta chọn những đại lượng cần tính, n Continue tr về hộp thoại trước n OK. 38 P.T.Hồng-N.T.Nhung 2.3. Tính các đại lượng thống kê mô tả Median Trung vị Mode Mode Quartiles Đưa tứ phân vị Cut points for k equal groups Đưa ra các điểm chia tập dữ liệu thành k phần bằng nhau Percentiles k Đưa ra phân vị thứ k của tập dữ liệu Chẳng hạn, hộp thoại trên ta tính trung vị, mode, tứ phân vị và phân vị thứ 10 với 90 của dữ liệu Tuoi. Kết qu trong cửa số Output như sau: Kết qu tính toán này trên SPSS cho ta th y: • Trung vị của tuổi là 21, mode của tuổi là 23; • Ba tứ phân vị là: Q1 = 17.25, Q2 = 21, Q3 = 26.15; • Phân vị thứ 10 là 15.10, phân vị thứ 90 là 45.90. P.T.Hồng-N.T.Nhung 39 Bài 2. Lập bảng tần số và tính các đại lượng thống kê mô tả Bài tập ôn luyện M tập dữ liệu DuLieuFastFood.sav vào trong cửa sổ Data Editor của SPSS và thực hiện các yêu cầu sau: 1. Mã hóa lại biến GioiTinh và NgheNghiep với những giá trị mã hóa tương ứng như sau: Nam được mã hóa là 1, Nữ là 0; HSSV được mã hóa là 1, CNVC là 2, NVVP là 3, Khac là 4 và thay đổi khai báo lại về kiểu giá trị của hai biến này là dạng số, không có chữ số thập phân nào sau d u ph y. Lưu lại file dữ liệu sau khi đã mã hóa với tên là DuLieuFastFood MaHoaLai.sav. Các yêu cầu sau được thực hiện trên file DuLieuFastFood MaHoaLai.sav: 2. Mã hóa biến tuổi thành biến khác có tên là TuoiMoi với các mã hóa tương ứng như sau: Những ngư i có tuổi không vượt quá 14 được mã hóa là 1, từ 14 đến 24 mã hóa là 2, từ 24 đến 45 mã hóa là 3, từ 45 đến 60 mã hóa là 4 và trên 60 mã hóa là 5. Tính tỉ lệ những ngư i có độ tuổi trên 60 trong nhóm được điều tra. 3. Đưa thông tin về những nữ nhân viên văn phòng trong mẫu. 4. Trong những ngư i làm nhân viên văn phòng, hãy tính số ngư i có thu nhập từ 3 đến 5 triệu. 5. Trong số những ngư i mua su t ăn FastFood với giá trên 40 nghìn, hãy tính tỉ lệ những ngư i là học sinh và sinh viên. 6. Trong những nữ nhân viên văn phòng hãy tính tỉ lệ những ngư i có thu nhập trên 5 triệu một tháng. 7. Tính tuổi trung bình của nam trong nhóm điều tra, tuổi trung bình của nữ trong nhóm điều tra và đưa ra nhận xét. 8. Một nửa số những ngư i điều tra có độ tuổi không vượt quá bao nhiêu? Tính tuổi nhỏ nh t trong nhóm 10% số ngư i có tuổi cao nh t trong nhóm được điều tra. 9. 75% số nam được điều tra có tuổi không vượt quá bao nhiêu? 25% số nữ có độ tuổi ít nh t là bao nhiêu? 40 P.T.Hồng-N.T.Nhung Bài 3 Biểu đồ 3.1 Một số loại biểu đồ • Biểu đồ thanh, biểu đồ tròn: áp dụng cho dữ liệu định tính • Biểu đồ hộp và râu, biểu đồ tần số, biểu đồ tán xạ, biểu đồ g p khúc,...: áp dụng cho dữ liệu định lượng 3.2 Biểu đồ thanh 1. Biểu đồ thanh được dùng cho dữ liệu định danh hay thứ bậc 2. Chiều cao của mỗi thanh biểu diễn tần số hay tần su t của trư ng hợp biểu diễn b i thanh đó 3. Có thể áp dụng để biểu diễn cho một hay nhiều tập dữ liệu trên cùng một biểu đồ Cách vẽ biểu đồ thanh Bước 1: Vào menu Graph ÝÑ Bar để m cửa sổ Bar Chart 41 Bài 3. Biểu đồ Bước 2: Tại cửa sổ Bar Chart 1. Chọn Simple: nếu biểu diễn tập dữ liệu một biến 2. Chọn Clustered: nếu muốn biểu diễn tập dữ liệu của một biến được chia nhóm b i một biến khác, các thanh đứng kề nhau 3. Chọn Stacked: nếu muốn biểu diễn tập dữ liệu của một biến được chia nhóm b i một biến khác, các thanh chồng lên nhau 42 P.T.Hồng-N.T.Nhung 3.2. Biểu đồ thanh Ví dụ: vẽ biểu đồ thanh biểu diễn một biến Để vẽ biểu đồ thanh biểu diễn biến nghề nghiệp (NgheNghiep) trong file DuLieuThucHanh.sav ta tiến hành như sau 1. Tại hộp thoại Bar Chart, chọn Simple. Tại khu vực Data in Chart Area chọn Summary for group of cases. n Define. Xu t hiện cửa sổ 2. Đưa biến NgheNghiep vào khung Category Axis 3. Lựa chọn N of cases để trục tung biểu diễn tần số, % of cases để trục tung biểu diễn tần su t 4. n nút Title để đặt tiêu đề cho hình 5. n OK. Ví dụ: vẽ biểu đồ thanh biểu diễn một biến được phân tách bởi một biến khác Để vẽ biểu đồ thanh biểu diễn biến nghề nghiệp (NgheNghiep) theo từng nhóm nam, nữ (biến nghề nghiệp được phân tách b i biến giới tính) trong file DuLieuThucHanh.sav ta tiến hành như sau: P.T.Hồng-N.T.Nhung 43 Bài 3. Biểu đồ 1. Tại hộp thoại Bar Chart, chọn Clustered. Tại khu vực Data in Chart Area chọn Summary for group of cases. n Define 2. Đưa biến NgheNghiep vào khung Category Axis, đưa biến GioiTinh vào khung Define Cluster by 3. Lựa chọn N of cases để trục tung biểu diễn tần số,% of cases để trục tung biểu diễn tần su t 4. n nút Title để đặt tiêu đề cho hình 5. n OK 44 P.T.Hồng-N.T.Nhung 3.3. Biểu đồ tròn 3.3 Biểu đồ tròn 1. Biểu đồ tròn được dùng cho dữ liệu định danh hay thứ bậc 2. Mỗi hình quạt biểu diễn tỷ lệ đóng góp của từng biểu hiện trong tổng thể hay mẫu Cách vẽ biểu đồ tròn Bước 1: Vào menu Graph ÝÑ Pie để m cửa sổ Pie Chart Bước 2: Tại cửa sổ Pie Chart chọn Summary for group of cases. sổ sau P.T.Hồng-N.T.Nhung n Define. Xu t hiện cửa 45 Bài 3. Biểu đồ Bước 3: Đưa biến cần biểu diễn vào khung Define Slice by. n OK 3.4 Biểu đồ g p khúc, diện tích (Line, Area Chart) 1. Biểu đồ g p khúc, diện tích dùng để biểu diễn cho những tập dữ liệu định lượng. 2. Trên một biểu đồ có thể vẽ nhiều đư ng (vùng diện tích) cùng một lúc. Hai loại biểu đồ này vẽ tương tự như biểu đồ thanh Ví dụ Dữ liệu về tuổi trong file DuLieuThucHanh.sav có thể được biểu diễn bằng biểu đồ đư ng g p khúc như sau (chú ý là biến Tuoi đã được chia nhóm bằng biến ChiaNhomTuoi). Bước 1: Vào menu Graph Line để m cửa sổ Line Chart ÝÑ 46 P.T.Hồng-N.T.Nhung 3.4. Biểu đồ gấp khúc, diện tích (Line, Area Chart) Bước 2: Tại cửa sổ Line Chart chọn Simple, tại khu vực Data in Chart Area chọn Summary for group of cases. n Define Bước 3: Đưa biến ChiaNhomTuoi vào khung Catgory Axis. n OK Ví dụ Ta có thể vẽ bằng biểu đổ Area biểu diễn biến ChiaNhomTuoi theo giới tính như sau Bước 1: Vào menu Graph Area để m cửa sổ Area Chart ÝÑ P.T.Hồng-N.T.Nhung 47 Bài 3. Biểu đồ Bước 2: Tại cửa sổ Area Chart chọn Simple, Summary for group of cases. n Define Bước 3: Đưa biến ChiaNhomTuoi vào khung Catgory Axis. Đưa biến GioiTinh vào khung Define Area by. n OK 3.5 Biểu đồ tần số (Histogram) 1. Biểu đồ tần số: dùng cho biến định lượng liên tục nhằm biểu diễn phân phối của tập dữ liệu. 48 P.T.Hồng-N.T.Nhung 3.5. Biểu đồ tần số (Histogram) 2. Chiều cao mỗi thanh hình chữ nhật trong biểu đồ biểu diễn tần số của lớp tương ứng. Cách vẽ biểu đồ tần số (Histogram) Bước 1: Chọn Graph P.T.Hồng-N.T.Nhung ÝÑ Histogram 49 Bài 3. Biểu đồ Bước 2: Chọn một biến định lượng vào khung Variable Bước 3: Nếu muốn hiển thị đư ng phân phối chuẩn thì chọn Display normal curve . n OK. Ví dụ ta cần vẽ biểu đồ tần số cho biến tuổi trong file DuLieuThucHanh.sav. Trong bước hai ta chọn biến định lượng là Tuoi. Hình vẽ như sau 50 P.T.Hồng-N.T.Nhung 3.6. Biểu đồ hộp và râu (Boxplot) 3.6 Biểu đồ hộp và râu (Boxplot) 1. Biểu đồ hộp và râu: áp dụng cho dữ liệu định lượng 2. Biểu đồ hộp và râu gồm một hộp và hai râu 3. Đoạn thẳng trong hộp cho biết giá trị trung vị của tập dữ liệu, hai cạnh (song song với nó) còn lại cho biết giá trị tứ phân vị thứ nh t và thứ ba 4. Hai râu nối tới giá trị lớn nh t và nhỏ nh t 5. Biểu đồ ph n ánh tính ch t nghiêng và sự phân tán của tập dữ liệu Cách vẽ biểu đồ hộp và râu (Boxplot) Bước 1: Chọn Graph P.T.Hồng-N.T.Nhung ÝÑ Boxplot... 51 Bài 3. Biểu đồ Bước 2: Tại cửa sổ Boxplot, chọn Simple nếu muốn biểu diễn hộp đơn, Cluster nếu biểu diễn hộp chùm. Tại khu vực Data in Chart Area, chọn Summary for group of cases nếu muốn biểu diễn biến định lượng theo các nhóm, Summary of seperate variables nếu muốn biểu diễn phân bố của nhiều biến khác nhau. Nếu cần vẽ cho một biến định lượng ta có thể tiến hành như sau Chọn Analyze Descriptive Statistics Explore ÝÑ 52 ÝÑ P.T.Hồng-N.T.Nhung 3.6. Biểu đồ hộp và râu (Boxplot) Bước 2: Tại cửa sổ Explore, chọn biến định lượng cần vẽ biểu đồ vào khung Dependent List. Bước 3: Chọn một biến định lượng vào khung Variable. Bước 4: n vào Plot m ra cửa sổ sau. n Continue. Quay lại cửa sổ Explore, n OK. P.T.Hồng-N.T.Nhung 53 Bài 3. Biểu đồ 3.7 Biểu đồ tán xạ (Scatter plot) Biểu đồ tán xạ dùng để biểu diễn mối quan hệ giữa hai biến định lượng. Cách vẽ biểu đồ tán xạ (Scatter plot) Bước 1: Chọn Graph ÝÑ Scatter/Dot. Được cửa sổ sau Bước 2: Tại cửa sổ Scatter/Dot, chọn Simple nếu vẽ biểu đồ cho một cặp biến. (Ovelay biểu diễn nhiều đám mây đơn cùng biểu đồ,.... ) 54 P.T.Hồng-N.T.Nhung 3.7. Biểu đồ tán xạ (Scatter plot) Bước 3: Chọn biến đưa vào khung Y-axis (giá trị là tung độ của điểm), biến đưa vào khung X-axis (giá trị là hoành độ của điểm) P.T.Hồng-N.T.Nhung 55 Bài 4 Kiểm định mối quan hệ giữa hai biến Kiểm định Khi-bình phương về tính độc lập của hai biến định tính được dùng để kiểm định xem giữa hai biến định tính có mối quan hệ hay không, chẳng hạn giới tính có nh hư ng tới việc lựa chọn loại laptop? hay trình độ học v n có mối liên hệ với cách đọc sách? Ta xét hai trư ng hợp như sau • Một trong hai biến là biến định danh • C hai biến là biến thứ bậc Ví dụ: kiểm định mối liên hệ hai biến định danh, hay định danh-thứ bậc Ta kiểm định xem giữa biến giới tính và sự lựa chọn giá s n phẩm thức ăn nhanh. Gi thuyết đặt ra như sau H0 : Giới tính và giá s n phẩm lựa chọn không có mối quan hệ H1 : Giới tính và giá s n phẩm lựa chọn có mối quan hệ Sau đây là các bước tiến hành kiểm định mối liên hệ giữa hai biến 56 Bước 1: Chọn Analyze ÝÑ Descriptive ÝÑ Crosstab để m của sổ Crosstab Bước 2: Tại cửa sổ Crosstab, đưa biến thứ nh t vào khung Row(s), biến thứ hai vào khung Column(s). n Statistics..., xu t hiện cửa sổ P.T.Hồng-N.T.Nhung 57 Bài 4. Kiểm định mối quan hệ giữa hai biến Bước 3: Chọn Chi-square. tab: Cell Display m ra n Continue. Quay lại của sổ Crosstab, chọn Cell..., cửa sổ Cross Tại cửa sổ này, trong khung Count, chọn Observed nếu muốn hiển thị tần số quan sát trong b ng chéo, chọn Expected nếu nếu muốn hiển thị tần số lý thuyết trong b ng chéo. n Continue. Quay lại của sổ Crosstab. OK Kết qu cho ba b ng như sau 58 P.T.Hồng-N.T.Nhung Kiểm định là tiến hành kiểm tra xem những dữ liệu thu được trên mẫu có đủ mạnh để ủng hộ một gi thuyết hay không. Kết luận cuối cùng sẽ là ch p nhận H0 tức bác bỏ H1 hoặc bác bỏ H0 tức ch p nhận H1 . Chúng ta so sánh mức ý nghĩa của bài toán α (thư ng là 0.01, 0.05 hay 0.1) và p-giá trị (Sig.) theo quy tắc • Nếu α ¡ p-giá trị thì bác bỏ H0 • Nếu α ¤ p-giá trị thì ch p nhận H0 Trong b ng Chi-Square Tests, trên dòng Pearson Chi-Square ta th y p-giá trị = 0.582. Nếu sử dụng mức ý nghĩa α = 0.05 thì ta có α 0.582, ta ch p nhận gi thuyết H0 rằng không có mối liên hệ giữa giới tính và lựa chọn giá của s n phẩm thức ăn nhanh. Kiểm định có ý nghĩa khi có không quá 20% số tần số kỳ vọng nhỏ hơn 5. Dòng chữ nhỏ phía cuối b ng cho biết số tần số kỳ vọng dưới 5 chỉ có 1 ô chiếm 12.5%. Kiểm định mối liên hệ hai biến thứ bậc đó. Trong trư ng hợp hai biến thứ bậc ta có thể đo độ mạnh mối liên hệ tuyến tính của hai biến Trong bước 3, tại cửa sổ Crosstab: Statistics, tại khung Ordinal ta chọn một số chỉ số : Gamma, Somers'd, Kendall's tau b. n OK. Quay về hộp thoại trước, n OK P.T.Hồng-N.T.Nhung 59 Bài 4. Kiểm định mối quan hệ giữa hai biến 60 P.T.Hồng-N.T.Nhung Bài 5 Kiểm định về trung bình 5.1 Kiểm định về trung bình một tổng thể Có thể cho rằng độ tuổi trung bình của khách hàng sử dụng s n phẩm thức ăn nhanh (ký hiệu là µ) là 20 hay không. Cặp gi thuyết đặt ra như sau H0 : µ = 20, H1 : µ  20 Ta sẽ sử dụng biến Tuoi trong file DuLieuThucHanh.sav để kiểm định các gi thuyết này. Bước 1: Vào Analyze ÝÑ Compare Means ÝÑOne-Sample T Test... để m cửa sổ One-Sample T Test Bước 2: Tại cửa sổ One-Sample T Test, đưa biến định lượng cần phân tích (Tuoi) vào khung Test Variable(s). Khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value. 61 Bài 5. Kiểm định về trung bình n Options để chọn độ tin cậy cho kho ng ước lượng. n OK n Continue tr về hộp thoại trước, rồi Kết qu cho trong hai b ng sau Theo kết qu , giá trị trung bình của mẫu là 25.13 tuổi, giá trị của kiểm định t là 3.922, và p-giá trị là 0.000 r t nhỏ. Vậy ta bác bỏ gi thuyết H0 và căn cứ vào chênh lệch dương giữa trung bình mẫu và giá trị Test Value=20, ta cho rằng độ tuổi trung bình của các khách hàng trên 20. Hai con số cuối cho biết ước lượng kho ng với độ tin cậy 95% cho độ tuổi trung bình của khách hàng là (22.53, 27.73). Qua đó có thể th y khách hàng tập trung trong độ tuổi trẻ. 5.2 Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu độc lập Sử dụng tập dữ liệu SoSanh2Mang.sav để so sánh sự hài lòng của khách hàng trong mẫu gồm 97 ngư i về ch t lượng dich vụ của hai mạng di động khác nhau. Thang điểm đánh giá tăng từ 1 tới 7 theo sự tăng của mức hài lòng. 62 P.T.Hồng-N.T.Nhung 5.2. Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu độc lập Gọi µ1 , µ2 là điểm đánh giá trung bình của hai nhóm khách hàng của mạng di động thứ nh t, thứ hai. Gi thuyết H0 : µ1 = µ2 H1 : µ1  µ2 Dữ liệu gồm một biến định lượng (Diem) và một biến định tính phân loại (MangDD). Bước 1: Vào Analyze ÝÑ Compare Means ÝÑIndependent-Sample T Test... Bước 2: Tại cửa sổ Independent-Sample T Test, đưa biến Diem vào khung Test Value, biến MangDD vào khung Grouping Variable. n Define Groups... P.T.Hồng-N.T.Nhung 63 Bài 5. Kiểm định về trung bình Bước 3: Nhập mã của nhóm 1 và nhóm 2 vào của sổ Define Groups. hộp thoại trước n OK. n Continue. Tr về Kết qu kiểm định F cho th y hai phương sai tổng thể bằng nhau nên sử dụng kiểm định t ứng với dòng Equal Variance Assumed. P-giá trị =0.000 nên ta bác bỏ H0 . Chênh lệch trên mẫu của nhóm Vie nhỏ hơn so với nhóm Mob nên có thể cho rằng sự hài lòng của khách hàng với dịch vụ di dộng của mạng Mob cao hơn so với mạng Vie. 5.3 Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu cặp Khi cần so sánh trung bình hai tổng thể trong trư ng hợp l y mẫu từng đôi (khi hai tổng thể có liên hệ với nhau). Dữ liệu là hai biến định lượng nhận giá trị trong từng cặp dữ liệu. Trong ví dụ sau đây ta điều tra sự hài lòng của khách hàng thông qua việc so sánh điểm kỳ vọng trước khi sử dụng dịch vụ và điểm đánh giá sau khi tr i nghiệm dịch vụ (về ch t lượng cuộc gọi trong dịp lễ Tết). Nếu gọi Gọi µ1 , µ2 là điểm đánh giá trung bình trước và sau khi dùng dịch vụ. Ta kiểm định cặp gi thuyết: H0 : µ1 = µ2 H1 : µ1  µ2 Bước 1: Vào Analyze ÝÑ Compare Means ÝÑPaired-Sample T Test... 64 P.T.Hồng-N.T.Nhung 5.3. Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu cặp Bước 2: Tại cửa sổ Paired-Sample T Test, dùng phím Ctrl để chọn hai biến TruocSuDung, SauSuDung đưa vào khung Paired Variable Bước 3: n OK P.T.Hồng-N.T.Nhung 65 Bài 5. Kiểm định về trung bình p-giá trị = 0.002 nhỏ hơn mức ý nghĩa 0.05 nên bác bỏ gi thuyết H0 cho rằng điểm đánh giá kỳ vọng trước sử dụng và điểm đánh giá sau sử dụng bằng nhau. Ngoài ra giá trị kiểm định t dương nên ta có thể cho rằng khách hàng ch t lượng cuộc gọi của các mạng di động chưa đáp ứng được sự mong đợi của khách hàng. 66 P.T.Hồng-N.T.Nhung Bài 6 Phân tích phương sai (ANOVA) Phương pháp phân tích phương sai được dùng khi nghiên cứu nh hư ng của biến nguyên nhân định tính lên biến kết qu định lượng, phương pháp này so sánh trung bình của nhiều nhóm (3 nhóm tr lên). Gi thuyết H0 như sau: H0 : µ1 = µ2 =    = µk có nghĩa là: H0 : biến định tính không có nh hư ng tới biến định lượng Gi thuyết đối H1 : biến định tính có nh hư ng tới biến định lượng Dữ liệu đầu vào: gồm một biến định lượng và một biến phân loại. Các bước tiến hành như sau Ví dụ Gi sử ta cần so sánh mức hài lòng của khách hàng sử dụng dịch vụ của ba mạng di động Vie, Mob, Vin về ch t lượng dịch vụ. Dữ liệu thu thập được lưu trong file SoSanh3Mang.sav. Các bước tiến hành như sau: Bước 1: Vào Analyze ÝÑ Compare Means ÝÑOne-Way ANOVA... để m cửa sổ One-Way ANOVA 67 Bài 6. Phân tích phương sai (ANOVA) Bước 2: Tại cửa sổ One-Way ANOVA, đưa biến định lượng vào khung Dependent List, biến phân loại vào khung Factor. n Options m ra hộp thoại sau Bước 3: Chọn Descriptive để tính các đại lượng thống kê mô t cho từng nhóm; chọn Homogeneityof-variance để tiến hành thủ tục kiểm định sự bằng nhau của các phương sai tổng thể. Sau đó n Continue tr về hộp thoại trước n OK. Kết qu cho trong 3 b ng sau 68 P.T.Hồng-N.T.Nhung B ng đầu tiên đưa ra kết qu tính một số đại lượng thống kê mô t cho từng nhóm. B ng thứ hai là kết qu của thủ tục kiểm định sự bằng nhau của các phương sai. Với giá trị Sig. là 0.388 ta ch p nhận gi thuyết rằng các phương sai bằng nhau. B ng thứ ba, cho biết p-giá trị Sig=0.002 nên ta bác bỏ gi thuyết H0 với mức ý nghĩa 0.05. Như vậy có thể cho rằng sự hài lòng của khách hàng đối với 3 mạng di động có khác biệt. Phân tích kỹ hơn sự khác biệt này có thể tiến hành trong mục sau Phân tích sâu ANOVA Các bước trong phân tích sâu ANOVA được thực hiện tương tự như phân tích phương sai ANOVA nhưng trong bước 2 ta làm thêm thao tác sau: Tại cửa sổ One-Way ANOVA, n Post Hoc, m cửa sổ sau B ng trên liệt kê một số phương pháp so sánh các cặp trung bình khác nhau. Trong ví dụ này ta chọn phương pháp Tukey nên chọnTukey. P.T.Hồng-N.T.Nhung 69 Bài 6. Phân tích phương sai (ANOVA) Kết qu so sánh từng cặp dựa trên cột Sig. ta th y sự hài lòng của khách hàng đối với hai mạng Mob và Vin như nhau nhưng đều tốt hơn so với mạng di động còn lại. 70 P.T.Hồng-N.T.Nhung Tài liệu tham khảo [1] Hoàng Trọng, Chu Nguyễn Mộng Ngọc, Phân Tích Dữ Liệu Nghiên Cứu với SPSS, Tập 1, 2, Nhà xu t b n Hồng Đức, năm 2008. [2] Hồ Đăng Phúc, Sử Dụng Phần Mềm SPSS Trong Phân Tích Số Liệu, Nhà xu t b n Khoa học và Kĩ thuật.