« Home « Kết quả tìm kiếm

Thuật Ngữ Ngành Xác Suất Thống Kê Và Học Máy

Tóm tắt Xem thử www.scribd.com Tải xuống

- Thuật ngữ ngành xác suấtthống kê và học máy Bởi:Cao Xuân Hiếu Lý thuyết xác suất Căn bản Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự ngẫu nhiên (randomness).Đối tượng cơ bản nhất của LTXS là các biến ngẫu nhiên (random variables).
- Đểđịnh nghĩa một biến ngẫu nhiên thì cần một hàm phân bố (distribution function),qua đó có thể định nghĩa được các khái niệm như trung bình (mean) và phương sai(variance).
- Standard deviation gọi là độ lệch chuẩn.
- Mean và variance là các phiếm hàm(functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên.
- Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn.
- như Lebesgue thì có thể được biểudiễn bởi hàm mật độ (density), theo định lý Radon-Nikodym.Cơ sở toán học của lý thuyết xác suất là thuyết độ đo (measure theory), nhưng việcchính của các xác suất gia.
- Nói chuyện với một chuyên gia xác suất thì rất nhiềukhi khái niệm này ẩn rất kỹ.
- Công cụ chính của các XSG chính là khái niệm độc lập(independence), và mạnh mẽ hơn là độc lập có điều kiện (conditional independence).Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập.
- Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đólà sự khác biệt giữa recipe để làm bánh và những cái bánh.
- Hiểu được sự khác biệt nàythì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươimát hơn.
- Độc lập và hội tụ Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS.
- Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất — là những viên gạch cho toàn bộ lâu đài XS.Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xácsuất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn.
- Một dạng độc lập có điều kiện hay dùng là tính chất Markov.
- Nếu tính độc lập là nền tảng cho các phương pháp suy diễn tần số(frequentist.
- Quá trình ngẫu nhiên LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar.
- đơngiản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp,nhiều chiều hơn.
- Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những tập các hàmsố đo được (measurable functions), và hàm phân bố cho các độ đo ngẫu nhiên (randommeasures).
- Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các quá trìnhngẫu nhiên (stochastic processes).
- Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từcác điều kiện nhất quán (consistency) của độ đo cho các cylinder sets.
- Đây là cách đểchúng ta xây dựng được các hàm phân bố cho quá trình Gauss (Gaussian processes), quátrình Dirichlet (Dirichlet process), v.v.Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độclập, và đẩy khái niệm này đến giới hạn.
- Công cụ ở đây là nhìn vào phép biến đổi Fourier (Fourier transform) của các hàm phân bố.
- Theo ngôn ngữ XS thì khái niệm này gọi làhàm tính cách (characteristic function).
- Để đẩy khái niệm độc lập tới giới hạn thì ta cầnkhái niệm các hàm phân bố khả phân vô hạn (infinitely divisible).
- Khái niệm tiếp theo làcác hàm phân bố ổn định (stable distribution).
- Gauss và Poisson chính là hai hàm phân bố ổn định — không phải là “ngẫu nhiên” nếu chúng ta quay về các luật số lớn và sốnhỏ nhắc ở trên.
- Max-stable là một họ phân bố cực đại ổn định.Các quá trình ngẫu nhiên có tính chất gia tăng độc lập (independent increment) gọi làquá trình Lévy.
- Tổng quát hơn một chút là các độ đo hoàn toàn độc lập (completelyrandom measures).
- Chọn Thuật ngữ ngành xác suất thống kê và học máy2/14 độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tươngứng.
- Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ củacác lâu đài xác suất đồ sộ: Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả cácquá trính Lévy đều có thể được decompose (phân rã) (phân tách) thành tổng của ba quátrình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quátrình phức hợp (compound) Poisson, và một là quá trình martingale.Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫunhiên.
- Nếu quá trình được liệt kê bởi tham số thời gian, thì một cái bánh ở đây có thểhiểu là một lối mẫu (sample path).
- Với một số quá trình ngẫu nhiên thì có thể mô tả cáchtạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp nhặt mẫu từ giỏ Pólya (Pólya’surn).
- Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng biểu diễn bẻ gậy (stick- breaking representation).
- Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở củađộc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằngcác nguyên liệu giản đơn hơn.Được quan tâm hàng đầu là biểu hiện của giá trị kỳ vọng (expectation) của một vậtthể xác suất.
- Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bảnthân nó cũng là một biến ngẫu nhiên.
- Một công cụ quan trọng là khái niệm martingale.Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là quá trình đánh bạc.
- Cần khái niệm filtration (hệ thống lọc).
- Nhờ các công cụ này mà ta có thể tìm hiểu cáckhái niệm xác suất hữu ích như thời điểm dừng (stopping time), thời điểm chạm (hittingtime), thời gian/thởi điểm vượt biên (boundary crossing time).Một họ quá trình NN rất thông dụng là quá trình Markov (Markov process).
- Định nghĩatrên cơ sở hạch xác suất chuyển dịch (transition probability kernel), và khái niệm hệthống lọc.
- Cần khái niệm subordinator.
- một dạng quá trình Lévy quan trọng.
- Quá trình Markov cho thời gian rời rạc còn gọilà chuỗi Markov (hoặc xích Markov).
- Điều kiện cần cho chuỗi Markov được hòa tan về mộttrạng thái phân bố bất dịch (phân bố dừng) (stationary distribution) là ergodicity, thỏamãn phương trính cân bằng chi tiết (detailed balance).
- Khái niệm coupling trong chuỗi Markov dịch là sự cặp đôi.
- Thuật ngữ ngành xác suất thống kê và học máy3/14 .
- Nói đến quá trình ta thường nghĩ đến thời gian — cụ thể là các quá trình NN thườngđược hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi mộttham số chỉ thời gian.
- Mở rộng khái niệm tham số thờigian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn.
- Markov random fields sẽ được gọi làtrường ngẫu nhiên Markov.
- Gaussian random field là trường ngẫu nhiên Gauss.
- Poisson point process gọi là quá trình điểm Poisson (lại quá trình, nhưng kỳ thực phải gọi làtrường Poisson mời phải.
- Spatial process là quá trình không gian.
- Spatiotemporal process gọi là quá trình không-thời gian.
- Khái niệm phase transition rất hay trong trườngngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là hiện tượng chuyển pha.Một dạng quá trình NN khá hay ho gọi là empirical process (quá trình thực nghiệm).Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễnthống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên.
- Sẽ nói ở mụcsau.Các khái niệm quan trọng khác: percolation, excursion, optional stopping Mô hình thống kê Căn bản Mô hình thống kê (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyênliệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS.
- Cái khác ở đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là dữ liệu (data),những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằngthực nghiệm và các thiết bị công nghệ.
- Tham số Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải tham số hóa(parameterization) mô hình.
- Các tham số (parameter) là phần còn lại của mô hình xácsuất mà chúng ta phải ước lượng, học.
- Đến đây có một vấn đề nho nhỏ, các tham số làmột giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên.
- Nếu các tham số là có số chiều hữu hạn, ta có một mô hình tham số(parametric model), nếu số chiều là vô hạn thì ta có mô hình phi tham số (nonparametricmodel).
- Như vậy, gọi là phi tham số không có nghĩa là không có tham số.
- Nếu tham sốlà ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là mô hình phi tham số Bayes Thuật ngữ ngành xác suất thống kê và học máy4/14 (Bayesian nonparametric model).
- Điều này không có nghĩa làm việc với các mô hìnhdạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người pháttriến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãnquan Bayes.
- Đầy đủ và thông tin Một công cụ quan trọng trong việc tham số hóa là khái niệm thống kê đầy đủ (sufficientstatistics).
- Để hiểu khái niệm này phải hiểu khái niệm thống kê là gì.
- Một thống kê làmột hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được).
- Liênhệ với khmt thì thống kê chính là đầu ra (output) của một giải thuật sử dụng dữ liệu nhưlà đầu vào.
- Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọithông tin có thể có được từ dữ liệu về các tham số của mô hình.
- Nghĩa là nếu vứt hếtdữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về môhình.
- Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học.
- Saukhi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải làmẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý biểu diễn phân tích Fisher-Neyman (Fisher-Neyman factorization theorem).
- Nhắc thêm khái niệmthống kê đầy đủ là một khái niệm có tính lý thuyết thông tin (information-theoretic), cóthể phát biểu bằng tính độc lập có điều kiện và các khái niệm entropy.Một loạt các mô hình đẹp có thể được động viên từ khái niệm cần và đủ kiểu này.Mô hình họ mũ (exponential family) là mô hình tạo ra dữ liệu ngẫu nhiên nhất có thểđược, nếu các thống kê đầy đủ đã được cho.
- Mô hình xác suất đồ thị (probabilisticgraphical model) là mô hình duy nhất thỏa mãn các ràng buộc về độc lập có điều kiệncho các biến ngẫu nhiên, theo định lý Hammersley-Clifford.
- Nếu các biến ngẫu nhiênđược giả dụ là hoán chuyển được, thì chúng bắt buộc phải được mô tả bởi một môhình trộn/ mô hình hỗn hợp (mixture model), theo định lý nổi tiếng của de Finetti.
- Nếucác biến ngẫu nhiên có hàm phân bố không thay đổi kể cả khi bị biến đổi trực chuẩn(orthornomal transformation) thì chúng bắt buộc phải được mô tả bởi một ellipticallycontoured distribution (phân bố có đường cong ê líp), kiểu như Gauss đa biến vậy.
- Nhãn quan Bayes và tần suất Các mô hình thống kê cho ta keo dính để gắn kết các dữ liệu với nhau, và là đối tượngtrung tâm của ngành thống kê.
- Nhưng trong lịch sử và đến tận bây giờ, các mô hình vẫnđược trường phái Bayes chào đón nồng nhiệt hơn là trường phái tần suất, bởi vì sự lệthuộc vào một mô hình thống kê làm cho người ta liên tưởng đến sự lệ thuộc vào tiênnghiệm (prior knowledge) quá nhiều, và do đó thiếu đi sự “khách quan”.
- Đặc biệt trongtrường phái Bayes có một nhánh gọi là Bayes chủ quan (subjective Bayes) và Bayeskhách quan.
- Những người theo Bayes chủ quan cho rằng, nếu ta có những niềm tin chủquan (subjective belief) nhất định về dữ liệu, thì ta sẽ sử dụng một mô hình xác suấttương ứng, do các định lý kiểu như của de Finetti và Hammersley-Clifford kể trên.
- Một Thuật ngữ ngành xác suất thống kê và học máy5/14 Các vấn để suy diễn cụ thể hơn Hypothesis testing.
- Trong kiểm định giả thuyết có một số khái niệm quan trọng: Nullhypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error)và lỗi loại hai (type-2 error).
- Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âmtính (false negative) trong đánh giá các treatment.
- Trong công nghệ thìtype-1 error gọi là false alarm error rate.
- Cách ước lượng trongkiểm định giả thuyết gọi là một hàm quyết định.
- Các khái niệm liên hệ còn có significance.
- Power của phép thử gọi là sứcmạnh.
- Likelihood ratio test gọi là phép thử dựa vào phân số khả năng.
- Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn(asymptotic statistics).Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson.Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễnnày với cách hình thức suy diễn kiểu khác trong thống kê.
- Nếu tiếp cận theo nhãn quanBayes thì KDGT khá là đơn giản, không khác gì việc ước lượng một mô hình là bao.Cần khái niệm phân bố tiên nghiệm cho các giả thuyết.
- Khái niệm Bayes factor sẽ đượcdịch là ?Sequential analysis.
- Khái niệm thử thôngdụng là sequential likelihood ratio test (phép thử dựa theo chuỗi phân số khả năng).Công cụ lý thuyết đẻ đánh giá sức mạnh của phép thử là các phân tích về thời gian dừng, phân tích các loại thời điểm vượt biên, v.v.
- trong lý thuyết xác suất về quá trình Markov.Classification/regression/ranking.
- Tham số cần ước lượng ở đâygọi là một hàm phân loại (classifier).
- Có thể tiếp cận vấn đề này trên cơ sở mô hìnhtham số hoặc mô hình phi tham số.
- Để học được máy (mô hình) thường đòi hỏi nhiềutính toán, chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển.Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng.Cách học/ ước lượng, về mặt tính toán, có lexicon riêng là training (việc luyện máy).Dữ liệu cần cho việc huấn luyện gọi là dữ liệu huấn luyện (training data).
- Phép thử mộthàm phân loại với dữ liệu mới gọi là testing.
- Dữ liệu thử chính là test data Nếu có hailớp để phân loại thì hàm phân loại tối ưu phải dựa vào likelihood ratio, rất giống nhưtrong kiểm định giả thuyết.
- Cái sau Thuật ngữ ngành xác suất thống kê và học máy13/14 chỉ phải thử giả thuyết một lần cho cả đám đông.
- Có rất nhiều phương pháp phân lớp,với các mô hình tham số và phi tham số, và các giải thuật học/ước lượng rất phong phú.Kinh điển thì có linear discriminant analysis (phân tích phân biệt tuyến tính), logisticregression (hồi quy logit).
- Hàm phân loại chỉ cógiá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục.
- Bài toán phâncấp gần giống bài toán phân loại ở chỗ hàm phân loại cũng có giá trị rời rạc (và không phải nhị phân), nhưng dữ liệu huấn luyện các mẫu về sự so sánh giữa các cấp chứ không phải nhãn lớp (cấp).
- Thuật ngữ ngành xác suất thống kê và học máy14/14

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt