Academia.eduAcademia.edu
XÁC SUẤT VS THỐNG KÊ PHẠM ĐĂNG QUYẾT phamdangquyet@gmail.com GIỚI THIỆU Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt XÁC SUẤT ■ Từ xác suất (probability) bắt nguồn từ chữ probare trong tiếng Latin và có nghĩa là "để chứng minh, để kiểm chứng". Nói một cách đơn giản, probable là một trong nhiều từ dùng để chỉ những sự kiện hoặc kiến thức chưa chắc chắn, và thường đi kèm với các từ như "có vẻ là", "mạo hiểm", "may rủi", "không chắc chắn" hay "nghi ngờ", tùy vào ngữ cảnh. "Cơ hội" (chance), "cá cược" (odds, bet) là những từ cho khái niệm tương tự. ■ Xác suất chính là một khái niệm được nói đến khi tính khả năng xác suất xảy ra của các sự kiện, sự vật trong tương lai mà khả năng xảy ra những sự kiện này sẽ không có bất kì điều gì có thể dự đoán chính xác được. ■ Lý thuyết xác suất là ngành toán học chuyên nghiên cứu xác suất đã được phát triển vào thế kỷ 17. Lý thuyết xác suất biểu diễn các khái niệm xác suất bằng các thuật ngữ hình thức - nghĩa là các thuật ngữ mà có thể xác định một cách độc lập với ý nghĩa của nó. Các thuật ngữ hình thức này được thao tác bởi các quy luật toán học và logic, và kết quả thu được sẽ được chuyển dịch trở lại miền (domain) của bài toán. THỐNG KÊ ■ Thuật ngữ “thống kê” của tiếng Anh “statistics” có gốc từ “state” (nghĩa là quốc gia), nguồn gốc La tinh “statisticum collegium” nghĩa là “hội đồng quốc gia”. Theo tiếng Đức, “statistik” có nghĩa gốc là “công tác dữ liệu của quốc gia”. ■ Ban đầu, thống kê dùng để diễn tả các hoạt động ghi chép số liệu của một quốc gia như dân số, tài sản, thuế. Thống kê có thể được cho là đã bắt đầu trong nền văn minh cổ xưa, ít nhất là từ cuối thế kỷ thứ 5 TCN, nhưng cho đến thế kỷ 18 thì nó mới chịu ảnh hưởng nhiều hơn từ số học và lý thuyết xác suất. Xác suất đã trở thành một trong những công cụ thống kê cơ bản. ■ Thống kê là một phần toán học của khoa học gắn liền với tập hợp dữ liệu, phân tích, giải thích hoặc thảo luận về một vấn đề nào đó, và trình bày dữ liệu. Có thể xem thống kê là một môn khoa học riêng biệt chứ không phải là một nhánh của toán học, nó chính là một phần của khoa học dữ liệu. Mục tiêu cuối cùng của nó là chuyển dữ liệu thành kiến thức và hiểu biết về thế giới xung quanh chúng ta. GIỚI THIỆU Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt XÁC SUẤT THỐNG KÊ John Wilder Tukey (1915 – 2000) was an American mathematician best known for development of the Fast Fourier Transform (FFT) algorithm and box plot XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ ■ Lý thuyết xác suất là ngành toán học chuyên nghiên cứu xác suất Lý thuyết thống kê liên quan tới những lập luận logic cơ bản giải thích của phương pháp tiếp cận kết luận thống kê, cũng bao gồm toán thống kê. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ Thuật ngữ ■ Thuật ngữ ■ NGẪU NHIÊN VÀ XÁC SUẤT ■ TỔNG THỂ VÀ MẪU ■ Một hiện tượng ngẫu nhiên có các kết cục không thể dự đoán trước nhưng lại có quy luật phân bố nhất định sau nhiều lần lặp lại thử nghiệm. ■ Toàn bộ nhóm các cá thể mà chúng ta muốn có thông tin về nó được gọi là tổng thể. ■ Một mẫu là một phần của tổng thể mà thực tế chúng ta khảo sát để thu thập thông tin. ■ THAM SỐ VÀ THỐNG KÊ ■ Tham số là một số diễn tả tổng thể. Một tham số là một số cố định, nhưng trong thực tế chúng ta không biết giá trị của nó. ■ Thống kê là một số diễn tả mẫu. Giá trị của thống kê được biết khi chúng ta lấy mẫu, nhưng nó có thể thay đổi theo từng mẫu. chúng ta thường sử dụng một thống kê để ước lượng một tham số chưa biết. ■ Xác suất của một biến cố là tỉ lệ số lần xuất hiện biến cố đó sau nhiều lần lặp đi lặp lại thử nghiệm về một hiện tượng ngẫu nhiên. ■ KHÔNG GIAN MẪU VÀ BIẾN CỐ ■ Không gian mẫu S của một hiện tượng ngẫu nhiên là tập hợp của tất cả các kết cục có thể xảy ra. ■ Biến cố là một kết cục hoặc một tập hợp các kết cục của một hiện tượng ngẫu nhiên. Một biến cố là tập con của không gian mẫu. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ Thuật ngữ ■ Thuật ngữ ■ MÔ HÌNH XÁC SUẤT ■ THỐNG KÊ MÔ TẢ ■ Sự mô tả một hiện tượng ngẫu nhiên bằng ngôn ngữ toán học gọi là mô hình xác suất. ■ ■ Biến ngẫu nhiên là biến lấy các giá trị bằng số xác định bởi kết cục của một hiện tượng ngẫu nhiên. Dữ liệu: Dữ liệu là các con số trong một ngữ cảnh cụ thể, và chúng ta cần hiểu ngữ cảnh đó nếu chúng ta muốn làm các con số trở nên có nghĩa. ■ Phân bố xác suất của một biến ngẫu nhiên X cho ta biết các giá trị có thể có của X là gì và xác suất được tìm cho các giá trị đó như thế nào. Các biến: Bất kỳ tệp dữ liệu nào cũng đều chứa các thông tin về một nhóm nào đó của các cá thể. Thông tin được tổ chức vào các biến. ■ Phân bố của một biến cho chúng ta biết nó nhận những trị số nào và nhận những trị số đó bao nhiêu lần. ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ QUY LUẬT SỐ LỚN ■ ■ Phân bố xác suất chuẩn ■ Trung bình, phương sai và độ lệch chuẩn của biến ngẫu nhiên ■ Quy luật số lớn chỉ ra rằng trung bình các giá trị của X trong nhiều lần thử phải tiến gần đến µ. ■ Quy luật số lớn theo xác suất và thống kê cho rằng khi kích thước mẫu tăng lên, giá trị trung bình của nó sẽ gần với mức trung bình của toàn bộ tổng thể. THỐNG KÊ MÔ TẢ - CÁC PHÂN BỐ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ ĐỊNH LÝ GIỚI HẠN TRUNG TÂM ■ ■ Định lý giới hạn trung tâm tuyên bố rằng đối với n lớn, phân bố mẫu của 𝑥 gần đúng phân bố Chuẩn N(μ, σ/ 𝑛 ) cho bất kỳ tổng thể nào với trung bình μ và độ lệch chuẩn hữu hạn σ. ■ THỐNG KÊ SUY LUẬN – KHOẢNG TIN CẬY Khi cỡ mẫu được tăng lên, sự phân bố lấy mẫu của trung bình sẽ xấp xỉ phân phối chuẩn. Điều này là đúng không phân biệt hình dạng phân bố của các giá trị cá thể trong tổng thể. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao? ■ Thống kê không chứng minh bất cứ điều gì ...? Nó chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái gì đó là sai ... Do đó, chúng ta sử dụng xác suất để nêu rõ mức độ tự tin của mình trong việc chỉ ra một cái gì đó là sai lầm ■ THỐNG KÊ SUY LUẬN – SAI SÔ CHUẨN XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao? ■ Trong thống kê, tôi không thể chứng minh bất cứ điều gì là đúng, nhưng chỉ cho thấy ngoài nghi ngờ hợp lý rằng một cái gì đó là sai Vì vậy, với mỗi tuyên bố này tôi sẽ nói rằng không có sự khác biệt giữa các trung bình mẫu và trung bình tổng thể được giả thuyết ■ THỐNG KÊ SUY LUẬN – KIỂM ĐỊNH GIẢ THUYẾT XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao? ■ Thống kê không chứng minh bất cứ điều gì ...? Nó chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái gì đó là sai ... Do đó, chúng ta sử dụng xác suất để nêu rõ mức độ tự tin của mình trong việc chỉ ra một cái gì đó là sai lầm ■ SUY LUẬN THỐNG KÊ CHO HỒI QUI XÁC SUẤT VS THỐNG KÊ THỐNG KÊ XÁC SUẤT Xác suất có điều kiện ■ Xác suất mà biến cố A xảy ra, cho rằng biến cố B đã xảy ra P( A | B)  ■ ■ P ( A and B ) P( B) Xác suất tiên nghiệm (prior probability) hay xác suất vô điều kiện (unconditional probability): là xác suất của một sự kiện trong điều kiện không có tri thức bổ sung cho sự có mặt hay vắng mặt của nó. Xác suất hậu nghiệm (posterior probability ) hay xác suất có điều kiện (conditional probability): là xác suất của một sự kiện khi biết trước một hay nhiều sự kiện khác ■ SUY LUẬN BAYES ■ Định lý Bayes điều chỉnh các xác suất khi được cho bằng chứng mới theo cách sau đây: ■ H0 đại diện cho một giả thuyết, gọi là một giả thuyết không (null hypothesis) ■ P(H0) được gọi là xác suất tiên nghiệm của H0 ■ P(E|H0) được gọi là xác suất có điều kiện của việc quan sát thấy bằng chứng E nếu biết rằng giả thuyết H0 là đúng ■ P(E) được gọi là xác suất biên của E hay bằng chứng: xác suất của việc chứng kiến bằng chứng mới E dưới tất cả các giả thuyết loại trừ nhau đôi một. ■ P(H0|E) được gọi là xác suất hậu nghiệm của H0 nếu biết E ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■ Bayes Factor (BF) ■ p-value ■ ■ Trong đó, tính t-score cho một mẫu cụ thể từ một phân bố mẫu có cỡ mẫu cố định đã được tính. Sau đó, p-values được dự đoán. Chúng ta có thể giải thích các p-values như (lấy ví dụ trường hợp p-value = 0,02 cho một phân bố có mean = 100): Có 2% xác suất rằng mẫu sẽ có mean = 100. Bayes Factor tương đương với giá trị p trong thống kê Bayesian. Hãy hiểu nó một cách toàn diện. ■ Null hypothesis trong Bayesian giả định phân bố xác suất ∞ chỉ ở một giá trị cụ thể của một tham số (VD: θ = 0.5) và xác suất bằng không ở những nơi khác. (M1) ■ Sự giải thích này có một khiếm khuyết là đối với phân phối mẫu của các cỡ mẫu khác nhau, thì phải có t-scores khác nhau và từ đó có p-values khác nhau. Nó hoàn toàn vô lý. Một p-value < 0.05 không đảm bảo rằng giả thuyết null sai hoặc p-values lớn hơn 5% cũng không đảm bảo là giả thuyết null đúng. ■ Giả thuyết thay thế (alternative hypothesis) là tất cả các giá trị của θ đều có thể, do đó một đường cong dẹt đại diện cho sự phân bố này. (M2) ■ Bây giờ, phân phối hậu nghiệm của dữ liệu mới biểu diễn như hình dưới. ■ ■ ■ Trong bảng A (thể hiện ở bên): thanh trái (M1) là xác suất prior của null hypothesis. Trong bảng B (hiển thị), thanh bên trái là xác suất posterior của null hypothesis. Bayes Factor được định nghĩa là tỷ lệ của các posterior odds/prior odds. Để bác bỏ một giả thiết null, ưu tiên BF <1/10. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■ Khoảng tin cậy (CI) ■ Khoảng tin cậy cũng bị khiếm khuyết tương tự. Hơn nữa vì CI không phải là một sự phân bố xác suất, nên không có cách nào để biết những giá trị nào có thể xảy ra nhất. ■ HDI 95% trong phân phối prior là rộng hơn so với HDI 95% trong phân phối postorior. Điều này có được là do độ tin cậy vào HDI tăng lên khi quan sát dữ liệu mới. THỐNG KÊ ■ Khoảng mật độ cao (HDI) ■ HDI được hình thành từ phân phối hậu nghiệm sau khi quan sát dữ liệu mới. Vì HDI là xác suất, HDI 95% cho 95% giá trị đáng tin cậy nhất. Nó cũng đảm bảo rằng 95% giá trị sẽ nằm trong khoảng này không giống như CI. XÁC SUẤT VS THỐNG KÊ THỐNG KÊ XÁC SUẤT Rủi ro Bayes ■ Định nghĩa : Rủi ro Bayes của hàm quyết định d được định nghĩa là ■ Trong đó kỳ vọng được thực hiện với đối θ. ■ Nếu xác suất phân bố π(θ) là rời rạc, hàm rủi ro có công thức như sau: R( , d )   R( i , d ) ( i ) i ■ Khi phân bố hậu định π(θ|x) là có sẵn, rủi ro Bayes được viết là ■ Trong đó f(x) là hàm mật độ xác suất biên của X được tìm thấy từ mật độ xác suất chung của X và θ. ■ Quyết định Bayes ■ Định nghĩa: Nguyên tắc quyết định Bayes là một hàm quyết định d* giảm tối thiểu rủi ro Bayes. ■ Đó là d* thỏa mãn ■ ở đây: inf R( , d )  max (lowerR ( , d )) d d XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Triết lý trong ứng dụng của xác suất ■ Ứng dụng thống kê ■ ■ “Thống kê ứng dụng” bao gồm thống kê mô tả và các ứng dụng của thống kê suy luận. ■ Thống kê được áp dụng cho một loạt các môn học, bao gồm cả khoa học tự nhiên và xã hội, chính trị và kinh doanh. ■ Các công cụ thống kê cần thiết cho việc phân tích, dự báo và đưa ra quyết định dựa trên dữ liệu. ■ Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ cuối thập kỷ 1950. ■ Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng đồng phylogenetics; các ứng dụng như BEAST và MrBayes cho phép ước lượng đồng thời nhiều tham số nhân khẩu học và tiến hóa. ■ Một số nhà thống kê chỉ gán các xác suất cho các biến cố ngẫu nhiên, ví dụ, các biến ngẫu nhiên, mà cho kết quả thử nghiệm thực hay mang tính lý thuyết; đó là những nhà tần suất học (frequentist). Một số khác lại gán xác suất với những mệnh đề không chắc chắn, tùy theo mức độ chủ quan (personal probability) tin vào sự đúng đắn của nó. Những người như vậy là các nhà Bayes (Bayesian). ■ Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa. ■ Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết môi trường hay còn gọi là phân tích đường lối. ■ Trong kinh tế, xác suất đóng góp rất nhiều cho việc tính toán và đưa ra các giải pháp nghiên cứu thị trường,... ■ Lý thuyết xác suất đóng một vai trò trung tâm trong các thuật toán machine learning để có thể đưa ra các dự đoán dễ xảy ra nhất. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT Triết lý trong ứng dụng của xác suất THỐNG KÊ ■ Ứng dụng thống kê XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: ■ Rất có thể hoàn cảnh kinh tế khó khăn hiện tại ở Mỹ và Anh sẽ ảnh hưởng đến số lượng các sinh viên đến du học. Kết quả là lượng sách kỳ vọng bán cho sinh viên sẽ giảm và/hoặc thay đổi bất thường. Giả định bạn thực hiện 1 vài nghiên cứu thị trường (ví dụ hỏi các đồng nghiệp của mình) về quan điểm của họ để thấy được ảnh hưởng đó đến hoạt động của công ty bạn. Gợi ý rằng công ty có thể kỳ vọng khoản lợi nhuận £1.5 triệu nếu số sinh viên đến học (đối với những người mới tham gia trong năm tới) giảm lượng nhỏ, khoản lợi nhuận £0.5 triệu nếu số sinh viên giảm lượng vừa phải và mất £2 triệu nếu số sinh viên giảm lượng lớn. ■ Bạn ước tính rằng khả năng có thể xảy ra của các sự kiện này là P(nhỏ)=0.4, P(vừa phải)=0.3, P(lớn )=0.3. XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: ■ Do đó trong khi cây bộ giải pháp trên cho biết lợi nhuận có thể, quan tâm với xác suất thị trường ‘phỏng đoán tốt nhất’ là quan tâm đối với công ty. Để có khả năng bù đắp này công ty của bạn đang xem xét việc phân bổ lại năng lực sản xuất bằng việc cho thuê nó cho 1 tổ chức khác. ■ Nếu họ làm điều này, tổn thất tiềm năng của lợi nhuận sẽ không đáng kể như dự kiến ở trên (do thu nhập cho thuê bổ sung), nhưng nó sẽ hạn chế năng lực sản xuất của công ty, nếu số sinh viên kỳ vọng giảm không xảy ra. ■ Trong kịch bản này, bạn có lợi nhuận dự kiến £1 triệu nếu số sinh viên giảm 1 lượng nhỏ, lợi nhuận £0.75 triệu nếu số sinh viên giảm lượng vừa phải và mất £0.5 nếu số sinh viên giảm nhiều. XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: ■ Do vậy xây dựng cây tiếp theo như 1 sự kết hợp các cây trước đó: ■ EMVwPI=(0.4)(1.5)+(0.3)(0.75)+(-0.5)(0.3)=0.675(triệu £) – có nghĩa là các EMV tốt nhất được đưa ra cho mỗi trạng thái tự nhiên sau khi xem xét cả hai đầu ra quyết định (cho thuê hoặc không cho thuê). ■ EMV của thông tin hoàn hảo = EMVwPI – EMV(cho thuê) = 0.675 - 0.475 = 0.2 (triệu £) XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: ■ Ban quản trị công ty quyết định sẽ là thận trọng để chờ đến tháng 9 và khi đó sử dụng dữ liệu về số lượng sinh viên đăng ký học trong ‘khoảng thời gian bù’, như là chỉ dẫn chỉ định tốt nhất cho việc nhập học thực tế kỳ vọng của sinh viên. ■ Do đó người ta lập luận rằng khoảng thời gian bù hoạt động trong tháng 9 có vẻ đòi hỏi nhiều năng lực sản xuất hơn từ công ty và lựa chọn cho thuê trở nên ít hấp dẫn hơn. ■ Ước tính xác suất cho khoảng thời gian bù bận rộn (CP) là P(CP|s1)=0.3, P(CP|s2)=0.2, P(CP|s3)=0.5, trong đó si (i = 1…3) biểu thị các đầu ra của trạng thái tự nhiên đối với số lượng sinh viên giảm ít, vừa phải và nhiều tương ứng. ■ Để xem quyết định này ảnh hưởng như thế nào đến bộ giải pháp cho vấn đề, chúng ta cần quay lại và xem lại cây và xem xét dữ liệu thị trường mới thay đổi giả định trước đó như thế nào trong phân tích của chúng ta? D1 và D2 đề cập đến quyết định ‘không cho thuê’ và ‘cho thuê’. XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: ■ Phần của cây mới (nút 10, 11 và 5) - được giải quyết trước đó trong thảo luận. Nút 6, 7, 8, và 9 được giải quyết bằng việc xem xét trật tự logic của quyết định. Chúng ta biết trong ví dụ P(S1|D1) thể hiện xác suất đầu tiên trên nút 6, tiếp theo sau là P(S2|D1) và P(S3|D1). Đầu ra của sự kiện thứ 2 là tương tự, P(S1|D2), P(S2|D2) và P(S3|D2). Chúng ta cũng đã xác định xác suất tiếp theo P(CP|s1)=0.3, P(CP|s2)=0.2, P(CP|s3)=0.5, tại đó trong đó si (i = 1…3) Nói cách khác, chúng ta cần điều chỉnh xác suất tiền định với thông tin có điều kiện mới này. ■ Điều này có thể đạt được bằng việc sử dụng phiên bản điều chỉnh Bayesian. Xem xét khoảng thời gian bù bận rộn đầu tiên. XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: ■ Và như vậy đối với nút 8 và nút 9: nút 9 EMV (cho thuê) và nút 8 EMV (không cho thuê): ■ EMV(9) = (0.36)(1) + (0.18)(0.75) + (0.45)(-0.5) ■ EMV(8) = (0.36)(1.5) + (0.18)(0.5) + (0.45)(-2) ■ Tương tự, chúng ta có thể tạo ra xác suất hậu định đối với khoảng thời gian bù không bận rộn XÁC SUẤT VS THỐNG KÊ ■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ: ■ Và như vậy đối với nút 6 và nút 7: trong đó nút 7 EMV (cho thuê) và nút 6 EMV (không cho thuê) đối với khoảng thời gian bù không bận rộn. ■ EMV(7) = (0.42)(1) + (0.36)(0.75) + (0.22)(-0.5) ■ EMV(6) = (0.42)(1.5) + (0.36)(0.5) + (0.22)(-2) ■ Cuối cùng, do nút EMV(10) và EMV(11) đã được xác định trước đó. Do đó khá đơn giản xác định EMV(3), EMV(4) và EMV(5) và do đó EMV(2) ■ Trong ví dụ, ước tính xác suất có điều kiện (có thể được trình bày như nghiên cứu thị trường mới nói là thuận lợi hay bất lợi để giới thiệu sản phẩm hay bán sản phẩm) đòi hỏi 1 sự điều chỉnh được thực hiện cho xác suất tiền định trước đó và trận tự logic của cây quyết định. ■ Điều này được mô tả là phiên bản điều chỉnh Bayesian.