Site icon Nhạc lý căn bản – nhacly.com

[Xác Suất] Biến ngẫu nhiên và phân phối xác suất

Trong phần trước ta đã có khái niệm rất cơ bản về phép thử, sự kiện, những đặc thù của biến cố và cách tính Tỷ Lệ của chúng. Trong phần này, ta sẽ tập trung chuyên sâu vào những biến cố nhận giá trị ngẫu nhiên và quy mô phân phối Tỷ Lệ của chúng .

Mục lục

1. Biến ngẫu nhiên

Biến ngẫu nhiên ( random variables ) là những biến nhận 1 giá trị ngẫu nhiên đại diện thay mặt cho tác dụng của phép thử. Mỗi giá trị nhận được USD x USD của biến ngẫu nhiên USD X USD được gọi là một bộc lộ của USD X $, đây cũng là hiệu quả của phép thử hay còn được hiểu là một sự kiện .Gọi tên là một biến có vẻ như hơi kì kì một chút ít bởi biến ngẫu nhiên thực ra là một hàm ánh xạ từ khoảng trống sự kiện khá đầy đủ tới 1 số thực : USD X : \ Omega \ mapsto \ mathbb { R } $ .

Biến ngẫu nhiên có 2 dạng:

  • Rời rạc (discrete): tập giá trị nó là rời rạc, tức là đếm được. Ví dụ như mặt chấm của con xúc xắc.
  • Liên tục (continous): tập giá trị là liên tục tức là lấp đầy 1 khoảng trục số. Ví dụ như giá thuê nhà ở Hà Nội.

2. Phân phối xác suất

Là chiêu thức xác lập Tỷ Lệ của biến ngẫu nhiên được phân phối thế nào. Có 2 cách để xác lập phân bổ này là dựa vào bảng phân bổ xác xuất và hàm phân phối Phần Trăm. Ở đây, tôi chỉ đề cập tới giải pháp hàm phân bổ Tỷ Lệ. Hàm phân phối Tỷ Lệ của biến ngẫu nhiên $ X $ được xác lập như sau :USD $ F_X ( x ) = P ( X \ le x ) ~ ~ ~, x \ in \ mathbb { R } $ $

Hàm phân phối xác suất còn có tên là hàm phân phối tích luỹ (CDF – Cumulative Distribution Function) do đặc trưng là lấy xác suất của các biến ngẫu nhiên bên trái của một giá trị $x$ bất kì nào đó. Hàm này có đặc điểm là một hàm không giảm, tức là nếu $a<b$ $a$=”” $b$=”” $f_x(a)=”” \le=”” bao=”” cả=”” f_x(b)$=”” gồm=”” kiện=”” p=”” rồi.<=”” sự=”” thì=”” vì=”” đã=””>

2.1. Hàm khối xác suất của biến rời rạc

Với những biến ngẫu nhiên ta còn chăm sóc xem Phần Trăm tại mỗi tại 1 giá trị USD x USD nào đó trong miền giá trị của nó là bao nhiêu, hàm Phần Trăm như vậy so với biến ngẫu nhiên rời rạc được gọi là hàm khối Phần Trăm ( PMF – Probability Mass Function ). Giả sử miền xác lập của $ X $ là USD D $, tức USD X : \ Omega \ mapsto \ mathsf D $ thì hàm khối Tỷ Lệ được xác lập như sau : $ $ p ( x ) = p_X ( x ) = \ begin { cases } P ( X = x ) và \ text { if } x \ in \ mathsf D \ cr 0 và \ text { if } x \ notin \ mathsf D \ end { cases } $ $Như vậy ta hoàn toàn có thể thấy rằng hàm khối Tỷ Lệ thực ra cũng là một Xác Suất nên nó mang rất đầy đủ toàn bộ những đặc thù của Phần Trăm như :

  • $0 \le p(x) \le 1 $
  • $\displaystyle\sum_{x_i \in \mathsf D}p(x_i)=1$

Ví dụ, ta có hàm phân phối Xác Suất như sau : $ $ p ( x ) = \ begin { cases } \ frac { x } { 36 } và \ text { if } x \ in \ mathbb R, 0 \ le x \ le 6 \ cr \ frac { 12 – x } { 36 } và \ text { if } x \ in \ mathbb R, x \ ge 7 \ cr 0 và \ text { else } \ end { cases } $ $ thì ta hoàn toàn có thể màn biểu diễn bằng biểu đồ phân phối như sau :Hàm phân phối tích luỹ $ F $ của biến ngẫu nhiên rời rạc hoàn toàn có thể được trình diễn qua hàm khối Xác Suất bằng cách lấy tổng : $ $ F_X ( x ) = \ sum_ { \ text { all } x_i \ le x } p ( x_i ) ~ ~ ~, x \ in \ mathbb { R } $ $ Lúc này, hàm phân phối tích luỹ sẽ có dạng bậc thang ứng với mỗi bậc là khoảng chừng USD ( x_i, x_ { i + 1 } ) USD. Ví dụ hàm phân phối tích luỹ của ví dụ trên sẽ có dạng như sau : $ $ F ( x ) = \ begin { cases } 0 và \ text { if } x < 1 \ cr { 1 } / { 36 } và \ text { if } 1 \ le x < 2 \ cr { 3 } / { 36 } và \ text { if } 2 \ le x < 3 \ cr { 6 } / { 36 } và \ text { if } 3 \ le x < 4 \ cr { 10 } / { 36 } và \ text { if } 4 \ le x < 5 \ cr { 15 } / { 36 } và \ text { if } 5 \ le x < 6 \ cr { 21 } / { 36 } và \ text { if } 6 \ le x < 7 \ cr \ text { so on … } \ end { cases } $ $ và biểu đồ tương ứng là :

2.2. Hàm mật độ xác suất của biến liên tục

Với những biến ngẫu nhiên liên tục ta có khái niệm hàm tỷ lệ Phần Trăm ( PDF – Probability Density Function ) để ước đạt độ tập trung chuyên sâu Xác Suất tại lân cận điểm nào đó. Hàm tỷ lệ Xác Suất $ f ( x ) USD tại điểm USD x USD được xác lập bằng cách lấy đạo hàm của hàm phân phối tích luỹ $ F ( x ) USD tại điểm đó : $ $ f ( x ) = F ^ { \ prime } ( x ) $ $Như vậy thì nơi nào USD f ( x ) USD càng lớn thì ở đó mức độ tập Phần Trăm càng cao. Từ đây ta cũng hoàn toàn có thể màn biểu diễn hàm phân phối tích luỹ như sau : $ $ F ( x ) = \ int_ { – \ infty } ^ xf ( t ) dt $ $Xác suất trong 1 khoảng chừng USD ( \ alpha, \ beta ) USD cũng hoàn toàn có thể được tính bằng hàm tỷ lệ Tỷ Lệ : $ $ P ( \ alpha \ le X \ le \ beta ) = \ int_ \ alpha ^ \ beta f ( x ) dx $ $Hàm tỷ lệ Phần Trăm cũng có 2 đặc thù như Xác Suất như sau :

  • Không âm: $f(x) \ge 0 ~~~, \forall x \in \mathbb{R}$
  • Tổng toàn miền bằng 1: $\int_{-\infty}^\infty f(x)dx = 1$

Ví dụ, thời hạn tính bằng đơn vị chức năng giờ mà một máy tính hoạt động giải trí trước khi xảy ra lỗi được coi như một biến ngẫu nhiên liên tục và được xác lập với hàm tỷ lệ Phần Trăm sau : $ $ f ( x ) = \ begin { cases } \ lambda e ^ { { – x } / { 100 } } và \ text { if } x \ ge 0 \ cr 0 và \ text { else } \ end { cases } $ $ Hãy tính Xác Suất của :

  • (a) Một máy tính hoạt động từ 50 giờ tới 150 giờ trước khi xảy ra lỗi?
  • (b) Một máy tính hoạt động dưới 100 giờ trước khi xảy ra lỗi?

Vì tổng Xác Suất toàn miền là 1 nên : $ $ \ begin { aligned } và \ int_ { – \ infty } ^ \ infty f ( x ) dx = 1 \ cr \ iff và \ int_ { – \ infty } ^ \ infty \ lambda e ^ { { – x } / { 100 } } dx = 1 \ cr \ iff và \ lambda \ int_ { – \ infty } ^ \ infty e ^ { { – x } / { 100 } } dx = 1 \ cr \ iff và \ lambda \ int_0 ^ \ infty e ^ { { – x } / { 100 } } dx = 1 \ cr \ iff và – \ lambda ( 100 ) e ^ { { – x } / { 100 } } \ Big | _0 ^ \ infty = 1 \ cr \ iff và 100 \ lambda = 1 \ cr \ iff và \ lambda = \ frac { 1 } { 100 } \ end { aligned } $ $

(a) Xác suất để 1 máy tính hoạt động được trong khoảng (50, 150) giờ là:
$$
\begin{aligned}
P(50<x<150) $$=”” &=”” -e^{{-3}=”” 0.384=”” 150=”” 38.4=”” 50=”” \approx=”” \big|_{50}^{150}=”” \cr=”” \end{aligned}=”” gian=”” giờ.<=”” hoạt=”” khi=”” khoảng=”” lỗi=”” máy=”” một=”” như=”” p=”” phần=”” sẽ=”” thời=”” trong=”” trăm=”” trước=”” tính=”” tới=”” vậy,=”” xấp=”” xỉ=”” {2}}=”” động=””>( b ) Xác suất để 1 máy tính hoạt động giải trí được trong vòng 100 trước khi lỗi là : $ $ \ begin { aligned } P ( X < 100 ) và = \ int_0 ^ { 100 } \ frac { 1 } { 100 } e ^ { { – x } / { 100 } } dx \ cr và = – e ^ { { – x } / { 100 } } \ Big | _0 ^ { 100 } \ cr và = 1 – e ^ { – 1 } \ cr và \ approx 0.633 \ cr \ end { aligned } $ $ Nên xê dịch 63.3 Tỷ Lệ thời hạn một máy tính sẽ lỗi sau 100 giờ sử dụng .Ta hoàn toàn có thể trình diễn bằng đồ thị như sau :Nhìn vào biểu đồ trên ta có thấy Tỷ Lệ ( a ) là phần diện tích quy hoạnh của hình thang cong phủ từ USD 50 < x < 150 USD, còn Xác Suất ( b ) là phần diện tích quy hoạnh hình thang cong phủ tới USD x < 100 USD. $ x USD càng lớn thì $ f ( x ) USD cũng càng bé đi nên phần phần diện tích quy hoạnh của nó càng hẹp dần đồng nghĩa tương quan với tỷ lệ Phần Trăm cũng giảm dần nên Tỷ Lệ để máy tính hoạt động giải trí được ngày càng thấp đi .Lưu ý rằng khác với hàm Phần Trăm, hàm tỷ lệ Phần Trăm tại 1 điểm bất kỳ luôn bằng 0. $ $ P ( X = x ) = \ int_x ^ xf ( t ) dt = 0 $ $Ngoài ra, giá trị của hàm tỷ lệ Phần Trăm $ f ( x ) USD hoàn toàn có thể lớn hơn 1, miễn sao bảo vệ được rằng tổng Tỷ Lệ toàn miền là 1 : $ \ int_ { – \ infty } ^ \ infty f ( x ) dx = 1 USD .

4. Các đặc trưng

Qua những hàm phân phối Phần Trăm ở phần 3 phía trên ta hoàn toàn có thể xác lập được Xác Suất của một biến ngẫu nhiên và dựng được đồ thị màn biểu diễn nó, nhưng trong trong thực tiễn ta còn phải chăm sóc tới những đặc trưng của nó như vị trí trung bình và độ phân tán ra làm sao. Trong trong thực tiễn khi tìm Phần Trăm ta thường chỉ xác lập những đặc trưng này vì rất khó xác lập được hàm phân phối Phần Trăm như trên .

4.1. Kỳ vọng

Kỳ vọng ( Expectation ) của biến ngẫu nhiên là trung bình của biến ngẫu nhiên. Kỳ vọng của biến ngẫu nhiên $ X $ được kí hiệu là USD E [ X ] USD : USD USD E [ X ] = \ begin { cases } \ displaystyle \ sum_ { \ forall i } x_ip_i và \ text { if x is discrete } \ cr \ displaystyle \ int_ { – \ infty } ^ \ infty xf ( x ) dx và \ text { if x is continous } \ end { cases } $ $

Lưu ý là trung bình của biến ngẫu nhiên ở đây là trung bình với khối lượng chứ không phải là trung bình cộng của Tỷ Lệ biến ngẫu nhiên .

Kỳ vọng còn được biết tới với những tên gọi khác như giá trị trung bình (Mean), giá trị trung bình có trọng lượng (Weighted Average),giá mong đợi (Expected Value) hay moment bậc một (first moment).

Kỳ vọng có 1 số ít đặc thù như sau :

  • $E(c) = c$ với $c$ là hằng số
  • $E(cX) = cE(X)$ với $c$ là hằng số
  • $E[aX+b] = aE[X]+b$ với $a, b$ là các hằng số
  • $E[X+Y] = E[X]+E[Y]$
  • $E[XY] = E[X]E[Y]$ với $X, Y$ là độc lập
  • $E[g(X)] = \begin{cases}
    \displaystyle\sum_{\forall i} g(x_i)p_X(x_i) &\text{if x is discrete} \cr
    \displaystyle\int_{-\infty}^\infty g(x)f(x)dx &\text{if x is continous}
    \end{cases}
    $

Việc chứng tỏ những đặc thù trên không khó lắm nên tôi không đề cập ở đây nữa mà chỉ lấy một số ít ví dụ đặc trưng để mình họa .Ví dụ : cho biến ngẫu nhiên rời rạc $ X $ và một hàm USD g ( X ) = X ^ n USD, hãy tìm kì vọng của USD g ( X ) USD. $ $ \ begin { aligned } E [ g ( x ) ] và = \ sum_ { \ forall i } g ( x_i ) p_X ( x_i ) \ cr \ implies E [ X ^ n ] và = \ sum_ { \ forall i } x_i ^ np_X ( x_i ) \ end { aligned } $ $ $ E [ X ^ n ] $ ở trên còn được biết tới với tên gọi moment bậc n ( nth moment ) của USD X $ .

4.2. Phương sai

Dựa vào kì vọng ta sẽ có được trung bình của biến ngẫu nhiên, tuy nhiên nó lại không cho ta thông tin về mức độ phân tán Tỷ Lệ nên ta cần 1 giải pháp để đo được độ phân tán đó. Một trong những chiêu thức đó là phương sai ( variance ) .Phương sai $ Var ( X ) USD là trung bình của bình phương khoảng cách từ biến ngẫu nhiên $ X $ tới giá trị trung bình : $ $ Var ( X ) = E [ ( X-E [ X ] ) ^ 2 ] $ $Việc giám sát dựa vào công thức này khá phức tạp, nên trong trong thực tiễn người ta thường sử dụng công thức tương tự sau : $ $ Var ( X ) = E [ X ^ 2 ] – E ^ 2 [ X ] $ $Chứng minh : $ $ \ begin { aligned } Var ( X ) và = E [ ( X-E [ X ] ) ^ 2 ] \ cr \ và = E [ X ^ 2-2 XE [ X ] + E ^ 2 [ X ] ] \ cr \ và = E [ X ^ 2 ] – E [ 2XE [ X ] ] + E [ E ^ 2 [ X ] ] ~ ~ ~, \ text { E [ X ] is constant } \ cr \ và = E [ X ^ 2 ] – 2E [ X ] E [ X ] + E ^ 2 [ X ] \ cr \ và = E [ X ^ 2 ] – 2E ^ 2 [ X ] \ end { aligned } $ $Như vậy ta hoàn toàn có thể thấy rằng phương sai luôn là một giá trị không âm và phương sai càng lớn thì nó biểu lộ mức độ phân tán tài liệu càng rộng hay nói cách khác mức độ không thay đổi càng nhỏ .Phương sai có 1 số ít đặc thù sau :

  • $Var(c) = 0$ với $c$ là hằng số
  • $Var(cX) = c^2Var(X)$ với $c$ là hằng số
  • $Var(aX+b) = a^2Var(X)$ với $a, b$ là các hằng số
  • $Var(X+Y) = Var(X)+Var(Y)$ với $X, Y$ là độc lập

4.3. Độ lệch chuẩn

Vì đơn vị của phương sai là bình phương nên việc tính để khớp với đơn vị của biến ngẫu nhiên là bất khả nên người ta đưa vào thêm khái niệm độ lệch chuẩn (SD-standard deviation) bằng căn bậc 2 của phương sai.
$$\sigma(X)=\sqrt{Var(X)}$$

Từ đây người ta cũng hoàn toàn có thể sử dụng $ \ sigma ^ 2 ( X ) USD để bộc lộ phương sai của biến ngẫu nhiên USD X $ .Lưu ý với độ lệch chuẩn ta phải lấy trị tuyệt đối của hằng số khi nhân vì độ lệch chuẩn cũng là không âm :

  • $\sigma(cX)=|c|\sigma(X)$

4.4. Điểm chuẩn

Độ lệch chuẩn cho phép ta biết được mức độ phân tán trung bình của toàn bộ tập dữ liệu nhưng lại chưa cho ta biết được mức độ phân tán của 1 điểm nào đó. Chính vì vậy ta thêm một thông số nữa để đánh giá điểm này là điểm chuẩn (SC-Standard Score).

Đặt $ \ mu $ là kì vọng và $ \ sigma USD là độ lệch chuẩn thì điểm chuẩn được tính như sau : $ $ z = \ dfrac { x – \ mu } { \ sigma } $ $Từ công thức trên ta hoàn toàn có thể thấy rằng $ | z | $ biểu lộ cho khoảng cách từ một điểm tới điểm trung bình của theo đơn vị chức năng là độ lệch chuẩn. Khi USD z USD dương ta nói rằng điểm đó nằm phía trên điểm trung bình, còn khi USD z USD âm thì nó nằm bên dưới điểm trung bình. Như vậy dựa vào điểm chuẩn ta hoàn toàn có thể biết được rằng 1 điểm có nằm trong vùng thông dụng hay là không và nằm ở vị trí nào so với trung bình của hàng loạt tập mẫu .Điểm chuẩn còn được gọi là giá trị z ( z-value ), điểm z ( z-score ). Tôi thì hay gọi điểm này là z-score do thói quen mà thôi 🙂

4.5. Trung vị

Trung vị ( median ) là điểm chia đều Tỷ Lệ thành 2 phần giống nhau, kí hiệu là $ med ( X ) USD : $ $ P ( X < med ( X ) ) = P ( X \ ge med ( X ) ) = 0.5 $ $Như vậy trung vị là nghiệm của phương trình hàm tích góp Tỷ Lệ : $ F_X ( x ) = 0.5 $

4.6. Moment (mô-men)

Là khái niệm tổng quát của kì vọng và phương sai. Một moment bậc USD k USD so với USD c USD được định nghĩa như sau : $ $ m_k = E [ ( X-a ) ^ k ] $ $Nhận xét rằng :

  • Kỳ vọng là moment bậc 1 với $a=0$
  • Phương sai là moment bậc 2 với $a=E[X]$

Khi USD a = E [ X ] $ người ta thường gọi là moment quy tâm, còn USD a = 0 $ gọi là moment gốc. Vậy nên ta hoàn toàn có thể gọi kỳ vọng là moment gốc bậc 1 và phương sai là moment quy tâm bậc 2 .

5. Kết luận

Bài này đã trình diễn về một khái niệm rất quan trọng của Phần Trăm thống kê là biến ngẫu nhiên – tựa như như những biến trong lập trình hoàn toàn có thể nhận một giá trị bất kể thuộc trường số thực .

Cùng với đó là các hàm phân phối xác suất dùng cho việc xác định xác suất của biến ngẫu nhiên như:

  • Hàm phân phối tích lũy (CDF): $F_X(x) = P(X \le x)$
  • Hàm khối xác suất cho biến rời rạc (PMF): $p(x) = P(X=x)$
  • Hàm mật độ xác suất cho biến liên tục (PDF): $f(x) = F^{\prime}(x)$

Phân phối Tỷ Lệ có 2 đặc trưng quan trọng là kỳ vọng ( expectation ) và phương sai ( variance ). Trong đó kỳ vọng đặc trưng cho điểm trung bình của biến ngẫu nhiên, còn phương sai biểu lộ cho mức độ phân tán phân phối quanh điểm trung bình đó. Phương sai càng lớn thì mức độ phân tán phân phối hay độ bất định của biến ngẫu nhiên càng rộng .Tuy nhiên trong phần này ta mới chỉ đề cập tới 1 biến ngẫu nhiên 1 chiều ( $ X \ in \ mathbb R USD ). Nhưng trong thực tiễn ta liên tục phải thao tác với nhiều biến ngẫu nhiên cùng lúc hay hoàn toàn có thể coi là một biến ngẫu nhiên nhiều chiều $ X \ in \ mathbb R ^ n USD. Ví dụ như giá nhà phụ thuộc vào vào diện tích quy hoạnh, vị trí và thời hạn thiết kế xây dựng. Khi đó nếu ta tính Xác Suất để mua được 1 căn nhà dưới 1 tỉ thì cần phải sử dụng cả 3 biến ngẫu nhiên đặc trưng cho diện tích quy hoạnh, vị trí và thời hạn thiết kế xây dựng, hoặc hoàn toàn có thể là 1 biến ngẫu nhiên có 3 chiều ( diện tích quy hoạnh ; vị trí ; thời hạn thiết kế xây dựng ). Việc tích hợp sử dụng biến ngẫu nhiên đa chiều như vậy sẽ được đề cập ở bài viết tới .Còn giờ đây, nếu có vướng mắc hay góp ý gì thì đừng quên để lại phản hồi phía dưới cho mình nhé !</x<150)>

</b$>

Source: http://139.180.218.5
Category: tản mạn

Exit mobile version