CS 229 – Học máy

Xác suất và Thống kê cơ bản
Star

Bởi Afshine Amidi và Shervine Amidi

Dịch bởi Hoàng Minh Tuấn và Hung Nguyễn

Giới thiệu về Xác suất và Tổ hợp

Không gian mẫu Một tập hợp những kết cục hoàn toàn có thể xảy ra của một phép thử được gọi là khoảng trống mẫu của phép thử và được kí hiệu là USD S $ .

Sự kiện ( hay còn gọi là biến cố ) Bất kỳ một tập hợp con $ E $ nào của khoảng trống mẫu đều được gọi là một sự kiện. Một sự kiện là một tập những kết cục hoàn toàn có thể xảy ra của phép thử. Nếu hiệu quả của phép thử chứa trong USD E $, tất cả chúng ta nói sự kiện $ E $ đã xảy ra .

Tiên đề của Tỷ Lệ Với mỗi sự kiện $ E $, tất cả chúng ta kí hiệu $ P ( E ) USD là Phần Trăm sự kiện $ E $ xảy ra .

Tiên đề 1 ― Mọi xác suất bất kì đều nằm trong khoảng 0 đến 1:

\ [ \ boxed { 0 \ leqslant P. ( E ) \ leqslant 1 } \ ]
Axiom 1

Tiên đề 2 ― Xác suất xảy ra của ít nhất một phần tử trong toàn bộ không gian mẫu là 1:

\ [ \ boxed { P ( S ) = 1 } \ ]
Axiom 2

Tiên đề 3 ― Với một chuỗi các biến cố xung khắc $E_1, …, E_n$, ta có:

\ [ \ boxed { P \ left ( \ bigcup_ { i = 1 } ^ nE_i \ right ) = \ sum_ { i = 1 } ^ nP ( E_i ) } \ ]
Axiom 3

Hoán vị Hoán vị là một cách sắp xếp USD r USD thành phần từ một nhóm USD n USD thành phần, theo một thứ tự nhất định. Số lượng cách sắp xếp như vậy là $ P ( n, r ) USD, được định nghĩa như sau :
\ [ \ boxed { P ( n, r ) = \ frac { n ! } { ( n-r ) ! } } \ ]

Tổ hợp Một tổng hợp là một cách sắp xếp USD r USD thành phần từ USD n USD thành phần, không quan trọng thứ tự. Số lượng cách sắp xếp như vậy là $ C ( n, r ) USD, được định nghĩa như sau :
\ [ \ boxed { C ( n, r ) = \ frac { P ( n, r ) } { r ! } = \ frac { n ! } { r ! ( n-r ) ! } } \ ]
Ghi chú : Chúng ta chú ý quan tâm rằng với USD 0 \ leqslant r \ leqslant n USD, ta có $ P ( n, r ) \ geqslant C ( n, r ) USD

Xác suất có điều kiện

Định lí Bayes Với những sự kiện $ A $ và $ B $ sao cho $ P ( B ) > 0 $, ta có :
\ [ \ boxed { P ( A | B ) = \ frac { P ( B | A ) P. ( A ) } { P ( B ) } } \ ]
Ghi chú : ta có $ P ( A \ cap B ) = P ( A ) P. ( B | A ) = P ( A | B ) P. ( B ) USD

Phân vùng Cho $ \ { A_i, i \ in [ \ ! [ 1, n ] \ ! ] \ } $ sao cho với mỗi USD i USD, $ A_i \ neq \ varnothing USD. Chúng ta nói rằng $ \ { A_i \ } $ là một phân vùng nếu có :
\ [ \ boxed { \ forall i \ neq j, A_i \ cap A_j = \ emptyset \ quad \ textrm { và } \ quad \ bigcup_ { i = 1 } ^ nA_i = S } \ ]
Partition
Ghi chú : với bất kể sự kiện $ B $ nào trong khoảng trống mẫu, ta có $ \ displaystyle P. ( B ) = \ sum_ { i = 1 } ^ nP ( B | A_i ) P. ( A_i ) USD .

Định lý Bayes lan rộng ra Cho $ \ { A_i, i \ in [ \ ! [ 1, n ] \ ! ] \ } $ là một phân vùng của khoảng trống mẫu. Ta có :
\ [ \ boxed { P ( A_k | B ) = \ frac { P ( B | A_k ) P. ( A_k ) } { \ displaystyle \ sum_ { i = 1 } ^ nP ( B | A_i ) P. ( A_i ) } } \ ]

Sự kiện độc lập Hai sự kiện $ A $ và $ B $ được coi là độc lập khi và chỉ khi ta có :
\ [ \ boxed { P ( A \ cap B ) = P ( A ) P. ( B ) } \ ]

Biến ngẫu nhiên

Định nghĩa

Biến ngẫu nhiên Một biến ngẫu nhiên, thường được kí hiệu là USD X $, là một hàm nối mỗi thành phần trong một khoảng trống mẫu thành một số ít thực .

Hàm phân phối tích góp ( CDF ) Hàm phân phối tích góp USD F $, là một hàm đơn điệu không giảm, sao cho $ \ underset { x \ rightarrow – \ infty } { \ textrm { lim } } F ( x ) = 0 $ và $ \ underset { x \ rightarrow + \ infty } { \ textrm { lim } } F ( x ) = 1 USD, được định nghĩa là :
\ [ \ boxed { F ( x ) = P ( X \ leqslant x ) } \ ]
Cumulative distribution function
Ghi chú : tất cả chúng ta có $ P ( a < X \ leqslant B ) = F ( b ) - F ( a ) USD .
Hàm tỷ lệ Phần Trăm ( PDF ) Hàm tỷ lệ Xác Suất USD f USD là Tỷ Lệ mà $ X $ nhận những giá trị giữa hai giá trị thực liền kề của biến ngẫu nhiên .

Mối quan hệ tương quan giữa PDF và CDF Dưới đây là những thuộc tính quan trọng cần biết trong trường hợp rời rạc ( D ) và liên tục ( C ) .

Trường hợp CDF $F$ PDF $f$ Thuộc tính của PDF
(D) $\displaystyle F(x)=\sum_{x_i\leqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $\displaystyle0\leqslant f(x_j)\leqslant1\textrm{ và }\sum_{j}f(x_j)=1$
(C) $\displaystyle F(x)=\int_{-\infty}^xf(y)dy$ $f(x)=\displaystyle \frac{dF}{dx}$ $\displaystyle f(x)\geqslant0\textrm{ và }\int_{-\infty}^{+\infty}f(x)dx=1$

Kỳ vọng và moment của phân phối Dưới đây là những biểu thức của giá trị kì vọng USD E [ X ] $, giá trị kì vọng ​ ​ tổng quát $ E [ g ( X ) ] $, moment bậc USD k USD USD E [ X ^ k ] $ và hàm đặc trưng $ \ psi ( \ omega ) USD cho những trường hợp rời rạc và liên tục :

Case $E[X]$ $E[g(X)]$ $E[X^k]$ $\psi(\omega)$
(D) $\displaystyle \sum_{i=1}^nx_if(x_i)$ $\displaystyle \sum_{i=1}^ng(x_i)f(x_i)$ $\displaystyle \sum_{i=1}^nx_i^kf(x_i)$ $\displaystyle\sum_{i=1}^nf(x_i)e^{i\omega x_i}$
(C) $\displaystyle \int_{-\infty}^{+\infty}xf(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}g(x)f(x)dx$ $\displaystyle \int_{-\infty}^{+\infty}x^kf(x)dx$ $\displaystyle\int_{-\infty}^{+\infty}f(x)e^{i\omega x}dx$

Phương sai Phương sai của một biến ngẫu nhiên, thường được kí hiệu là Var $ ( X ) USD hoặc $ \ sigma ^ 2 USD, là một độ đo mức độ phân tán của hàm phân phối. Nó được xác lập như sau :

\[\boxed{\textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}\]

Độ lệch chuẩn Độ lệch chuẩn của một biến ngẫu nhiên, thường được kí hiệu $ \ sigma USD, là thước đo mức độ phân tán của hàm phân phối của nó so với những đơn vị chức năng của biến ngẫu nhiên trong thực tiễn. Nó được xác lập như sau :
\ [ \ boxed { \ sigma = \ sqrt { \ textrm { Var } ( X ) } } \ ]
Standard deviation

Biến đổi những biến ngẫu nhiên Đặt những biến $ X $ và $ Y $ được link với nhau bởi một hàm. Kí hiệu USD f_X USD và USD f_Y USD lần lượt là những phân phối của $ X $ và $ Y $, ta có :
\ [ \ boxed { f_Y ( y ) = f_X ( x ) \ left | \ frac { dx } { dy } \ right | } \ ]

Quy tắc tích phân Leibniz Gọi USD g USD là hàm của USD x USD và có năng lực USD c USD, và USD a USD, USD b USD là những ranh giới hoàn toàn có thể phụ thuộc vào vào USD c USD. Chúng ta có :
\ [ \ boxed { \ frac { \ partial } { \ partial c } \ left ( \ int_a ^ bg ( x ) dx \ right ) = \ frac { \ partial b } { \ partial c } \ cdot g ( b ) – \ frac { \ partial a } { \ partial c } \ cdot g ( a ) + \ int_a ^ b \ frac { \ partial g } { \ partial c } ( x ) dx } \ ]

Phân bố xác suất

Bất đẳng thức Chebyshev Gọi $ X $ là biến ngẫu nhiên có giá trị kỳ vọng $ \ mu USD. Với USD k, \ sigma > 0 USD, tất cả chúng ta có bất đẳng thức sau :
\ [ \ boxed { P ( | X – \ mu | \ geqslant k \ sigma ) \ leqslant \ frac { 1 } { k ^ 2 } } \ ]

Các phân phối chính Dưới là những phân phối chính cần ghi nhớ :

Loại Phân phối PDF $\psi(\omega)$ $E[X]$ $\textrm{Var}(X)$ Illustration
(D) $X\sim\mathcal{B}(n, p)$ $\displaystyle \displaystyle\binom{n}{x} p^xq^{n-x}$ $(pe^{i\omega}+q)^n$ $np$ $npq$ Binomial distribution
(D) $X\sim\textrm{Po}(\mu)$ $\displaystyle \frac{\mu^x}{x!}e^{-\mu}$ $e^{\mu(e^{i\omega}-1)}$ $\mu$ $\mu$ Poisson distribution
(C) $X\sim\mathcal{U}(a, b)$ $\displaystyle \frac{1}{b-a}$ $\displaystyle\frac{e^{i\omega b}-e^{i\omega a}}{(b-a)i\omega}$ $\displaystyle\frac{a+b}{2}$ $\displaystyle\frac{(b-a)^2}{12}$ Uniform distribution
(C) $X\sim\mathcal{N}(\mu, \sigma)$ $\displaystyle \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$ $e^{i\omega\mu-\frac{1}{2}\omega^2\sigma^2}$ $\mu$ $\sigma^2$ Normal distribution
(C) $X\sim\textrm{Exp}(\lambda)$ $\displaystyle \lambda e^{-\lambda x}$ $\displaystyle\frac{1}{1-\frac{i\omega}{\lambda}}$ $\displaystyle\frac{1}{\lambda}$ $\displaystyle\frac{1}{\lambda^2}$ Exponential distribution

Phân phối đồng thời biến ngẫu nhiên

Mật độ biên và phân phối tích góp Từ hàm phân phối tỷ lệ đồng thời USD f_ { XY } $, ta có

Trường hợp Mật độ biên Hàm tích lũy
(D) $\displaystyle f_X(x_i)=\sum_{j}f_{XY}(x_i,y_j)$ $\displaystyle F_{XY}(x,y)=\sum_{x_i\leqslant x}\sum_{y_j\leqslant y}f_{XY}(x_i,y_j)$
(C) $\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f_{XY}(x,y)dy$ $\displaystyle F_{XY}(x,y)=\int_{-\infty}^x\int_{-\infty}^yf_{XY}(x’,y’)dx’dy’$

Mật độ có điều kiện kèm theo Mật độ có điều kiện kèm theo của $ X $ với USD Y $, thường được kí hiệu là USD f_ { X | Y } $, được định nghĩa như sau :
\ [ \ boxed { f_ { X | Y } ( x ) = \ frac { f_ { XY } ( x, y ) } { f_Y ( y ) } } \ ]

Tính chất độc lập Hai biến ngẫu nhiên $ X $ và $ Y $ độc lập nếu ta có :
\ [ \ boxed { f_ { XY } ( x, y ) = f_X ( x ) f_Y ( y ) } \ ]

Hiệp phương sai Chúng ta xác lập hiệp phương sai của hai biến ngẫu nhiên $ X $ và $ Y $, thường được kí hiệu $ \ sigma_ { XY } ^ 2 $ hay $ \ textrm { Cov } ( X, Y ) USD, như sau :
\ [ \ boxed { \ textrm { Cov } ( X, Y ) \ triangleq \ sigma_ { XY } ^ 2 = E [ ( X – \ mu_X ) ( Y – \ mu_Y ) ] = E [ XY ] – \ mu_X \ mu_Y } \ ]

Hệ số đối sánh tương quan Kí hiệu $ \ sigma_X USD, $ \ sigma_Y USD là độ lệch chuẩn của $ X $ và $ Y $, tất cả chúng ta xác lập thông số đối sánh tương quan giữa $ X $ và $ Y $, kí hiệu $ \ rho_ { XY } $, như sau :
\ [ \ boxed { \ rho_ { XY } = \ frac { \ sigma_ { XY } ^ 2 } { \ sigma_X \ sigma_Y } } \ ]
Ghi chú 1 : tất cả chúng ta chú ý quan tâm rằng với bất kể biến ngẫu nhiên USD X, Y $ nào, ta luôn có $ \ rho_ { XY } \ in [ – 1,1 ] $ .
Ghi chú 2 : Nếu $ X $ và $ Y $ độc lập với nhau thì $ \ rho_ { XY } = 0 USD .

Ước lượng tham số

Định nghĩa

Mẫu ngẫu nhiên Mẫu ngẫu nhiên là tập hợp của USD n USD biến ngẫu nhiên $ X_1, …, X_n $ độc lập và được phân phối giống hệt với USD X $ .

Công cụ ước tính Công cụ ước tính ( estimator ) là một hàm của tài liệu được sử dụng để suy ra giá trị của một tham số chưa biết trong quy mô thống kê .

Thiên vị Thiên vị ( bias ) của Estimator $ \ hat { \ theta } $ được định nghĩa là chênh lệch giữa giá trị kì vọng ​ ​ của phân phối $ \ hat { \ theta } $ và giá trị thực, tức là
\ [ \ boxed { \ textrm { Bias } ( \ hat { \ theta } ) = E [ \ hat { \ theta } ] – \ theta } \ ]
Ghi chú : một công cụ ước tính được cho là không thiên vị ( unbiased ) khi tất cả chúng ta có $ E [ \ hat { \ theta } ] = \ theta USD .

Ước lượng trung bình

Giá trị trung bình mẫu Giá trị trung bình mẫu của mẫu ngẫu nhiên được sử dụng để ước tính giá trị trung bình thực $ \ mu USD của phân phối, thường được kí hiệu $ \ overline { X } $ và được định nghĩa như sau :
\ [ \ boxed { \ overline { X } = \ frac { 1 } { n } \ sum_ { i = 1 } ^ nX_i } \ ]
Ghi chú : trung bình mẫu là không thiên vị ( unbiased ), nghĩa là $ E [ \ overline { X } ] = \ mu USD .

Định lý số lượng giới hạn TT Giả sử tất cả chúng ta có một mẫu ngẫu nhiên $ X_1, …, X_n $ theo một phân phối nhất định với trung bình $ \ mu USD và phương sai $ \ sigma ^ 2 USD, sau đó tất cả chúng ta có :
\ [ \ boxed { \ overline { X } \ underset { n \ rightarrow + \ infty } { \ sim } \ mathcal { N } \ left ( \ mu, \ frac { \ sigma } { \ sqrt { n } } \ right ) } \ ]

Ước lượng phương sai

Phương sai mẫu Phương sai mẫu của mẫu ngẫu nhiên được sử dụng để ước đạt phương sai thực sự $ \ sigma ^ 2 $ của phân phối, thường được kí hiệu là USD s ^ 2 USD hoặc $ \ hat { \ sigma } ^ 2 USD và được định nghĩa như sau :

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Xem thêm: Tam giác.

Ghi chú : phương sai mẫu không thiên vị ( unbiased ), nghĩa là $ E [ s ^ 2 ] = \ sigma ^ 2 USD .

Quan hệ Chi-Squared với phương sai mẫu Với USD s ^ 2 USD là phương sai mẫu của một mẫu ngẫu nhiên, ta có :
\ [ \ boxed { \ frac { s ^ 2 ( n-1 ) } { \ sigma ^ 2 } \ sim \ chi_ { n-1 } ^ 2 } \ ]

Source: http://139.180.218.5
Category: tản mạn

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *