Ngày đăng: 11/07/2014, 09:20
CHƯƠNG 1: ÔN TẬP 1.1. Trung bình mẫu – Phương sai mẫu 1.1.1. Trung bình mẫu Trong phân tích dữ liệu, cũng như trong cuộc sống hàng ngày, chúng ta thường nói đến chiều cao trung bình, thu nhập trung bình, vân vân. Đó chính là trung bình mẫu. Hãy xét ví dụ sau: Ví dụ 1.1: Bảng quan sát nhiệt độ ở Đà Lạt Thứ 2 Thứ 3 Thứ 4 Thứ 5 (x ( ) o x 5.1918202119 4 1 =+++=⇒ Một cách khái quát, trung bình mẫu được tính bằng công thức sau: () Nxxxx N x ++++= 1 321 Hay: ∑ = = N n n x N x 1 1 1.1.2. Phương sai mẫu Phương sai mẫu [ký hiệu ] bằng trung bình của tổng bình phương độ lệch giữa giá trị quan sát so với giá trị trung bình: 2 X s () ( ) ( ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ++ −−− = xxxxxx N s N X 2 2 2 1 2 2 1 Hay: ( ) ∑ = − = N n n X xx N s 1 2 2 1 Chẳng hạn, về trung bình mà nói thì khí hậu ở sa mạc rất nóng. Hơn nữa nhiệt độ giao động rất lớn giữa ngày và đêm. Để thể hiện được sự khắc nghiệt của khí hậu sa mạc, chúng ta không những chỉ sử dụng trung bình (mẫu) về nhiệt độ, mà cả sự giao 1 ) (x 2 ) (x 3 ) (x 4 ) 19 o 21 o 20 o 18 o 1 động của nhiệt độ theo từng thời điểm so với trung bình. Đó chính là khái niệm về phương sai mẫu nói trên. 1.2. Hàm mật độ xác suất, hàm phân bố xác suất 1.2.1. Tần suất và xác suất Để có sự hình dung về tần suất, hãy xét ví dụ sau: Ví dụ 1.2: Xếp hạng tốc độ gia tăng giá cổ phiếu trên thị trường chứng khoán Việt Nam. Gọi X là tỉ lệ phần trăm mức tăng giá cổ phiếu trung bình trong 3 tháng đầu tiên sau khi “lên sàn”; gọi P là phần trăm các công ty có mức tăng giá cổ phiếu tương ứng với giá trị của X X Y (x 1 ) 50% 10% (x 2 ) 40% 20% (x 3 ) 30% 35% (x 4 ) 20% 25% Con số P= 10%, X= 50% có nghĩa là có 10% trong tổng số các công ty có mức tăng giá trong 3 tháng đầu sau khi phát hành cổ phiếu ra công chúng là 50%. Đó chính là ví dụ về tần suất Ví dụ 1.3: Trò chơi tung đồng xu. Giả sử bạn tham gia cuộc chơi tung đồng xu tại hội chợ. Nếu là mặt sấp, bạn sẽ được $100. Ngược lại, nếu là mặt ngửa, bạn được $0. Với thể lệ đó, bạn sẵn sàng trả bao nhiêu đôla để tham gia trò chơi? Để cho tiện, hãy kí hiệu mặt sấp là 1, mặt ngửa là 0. Giả sử kết quả tung xu sau 10 lần là như sau: X P 1 3/10 0 7/10 Con số 3/10 chính là tần suất xuất hiện mặt sấp (X = 1). Nghĩa là, trong 10 lần tung xu, có 3 lần xuất hiện mặt sấp. Và do đó, có 7 lần xuất hiện mặt ngửa. Số tiền bạn bỏ ra cho việc tham dự 10 lần tung xu là: $50 x 10 = $500. Số tiền nhận được trong cuộc chơi: $100 x 3 + $0 x 7 = $300. 2 Æ Do vậy, cuộc chơi không hứng thú đối với bạn ($500 > $300). Tuy nhiên, nếu giả sử rằng bạn tham dự cuộc chơi vô hạn lần. Khi đó, số lần xuất hiện mặt sấp và mặt ngửa là như nhau, và bằng ½. Khi đó, kỳ vọng đượccuộc sẽ là: $100×1/2 + $0x1/2 = $50; và bằng chính số tiền lớn nhất bạn sẵn sàng trả để tham dự cuộc chơi. Điều chúng ta cần phân biệt là con số P = 3/10 trong ví dụ nêu trên là tần suất xuất hiện mặt sấp trong 10 lần thử. Và con số ½ là xác suất xuất hiện mặt sấp (hoặc ngửa). Khái niệm tần suất ứng với từng mẫu thử; còn xác suất tương ứng với tổng thể. 1.2.2. Biến ngẫu nhiên rời rạc và liên tục 2.2.1. Biến ngẫu nhiên rời rạc: Một biến ngẫu nhiên là rời rạc nếu các giá trị có thể có của nó lập nên một tập hợp hữu hạn hoặc đếm được, nghĩa là có thể liệt kê được tất cả các giá trị có thể có của nó. Cuộc chơi tung xu nêu trên là ví dụ về biến ngẫu nhiên rời rạc. Một cách hình thức hóa, ta có thể nói như sau. Giả sử đối tượng quan sát X có thể xuất hiện trong K sự kiện khác nhau [trong ví dụ tung xu, K = 2]. Ta ký hiệu các sự kiện đó là. K xxx, ,, 21 Tần suất xuất hiện một biến cố trong N phép thử, ký hiệu là, là tỉ số giữa số lần xuất hiện biến cố cụ thể đó so với N phép thử được thực hiện. k x k p Với mọi chỉ số,, ta có thể viết như sau: Kk, ,3,2,1 = X x x x … x 1 2 3 K P p p p … p 1 2 3 K p, p 1 2, p ,… p 3 K > 0, và p 1 + p 2 + p + …… + p 3 K = 1, hay cũng vậy, 1 1 = ∑ = K k k p Nếu số mẫu N là đủ lớn (tiến đến vô hạn), khái niệm tần suất xuất hiện một biến cố được thay bằng khái niệm xác suất xuất hiện biến cố, ký hiệu bởi: Trong đó, là hàm mật độ xác suất của ., ,2,1),( Kkxff kk == )( k xf 2,1, Kkx k = 3 Ta cũng có, f, f, f ,… f 1 2 3 K > 0, và 1 1 = ∑ = K k k f 2.2.2. Biến ngẫu nhiên liên tục Một biến ngẫu nhiên là liên tục nếu các giá trị có thể có của nó lắp đầy một khỏang trên trục số, nghĩa là không thể liệt kê và đếm được tất cả các giá trị có thể có của nó. Tương tự với trường hợp phân bố xác suất rời rạc, nếu gọi X là một biến ngẫu nhiên liên tục; và f(x) là hàm mật độ xác suất của X. Khi đó: 1)( 0)( = ≥ ∫ ∞+ ∞− dxxf x f Ta định nghĩa hàm phân bố xác suất của X là: ∫ ∞− = x dttfxF )()( Điều đó có nghĩa là, xác suất của biến ngẫu nhiên X nhận giá trị trong khoảng sẽ là: ],[ ba )()()( )( aFbFbXaP b a dxxf −==≤≤ ∫ Ví dụ, trong phân bố chuẩn, về đồ thị ta có thể biểu diễn công thức tính xác suất này như sau: Đồ thị 1.1: Phân bố xác suất 4 Phần tô đậm chính là xác suất )( bXaP ≤ ≤, được tính bởi tích phân:. )()()( aFbF b a dxxf −= ∫ 1.3. Phân bố xác suất đồng thời Nhiều khi chúng ta muốn đưa ra một đánh giá xác suất đồng thời cho một số biến lượng ngẫu nhiên. Ví dụ, bảng thống kê có ghi lại dữ kiện về thất nghiệp (u) và lạm phát (п). Cả hai biến lượng này đều là biến ngẫu nhiên, rất nhiều khả năng là chính phủ muốn hỏi những nhà kinh tế câu hỏi sau đây: “Liệu khả năng lạm phát thấp hơn 8% và mức độ thất nghiệp nhỏ hơn 6% vào năm sau là bao nhiêu?”. Điều đó có nghĩa là, ta cần phải xác định xác suất đồng thời: P (п 0 Nói khác đi, nếu ( X − EX ) > 0 có xu hướng đi kèm với (Y − EY ) >… quan (hay covariance), và hệ số tương quan (hay correlation, ký hiệu là ρ XY ) Để minh họa, giả sử X là trọng lượng của một mẫu nước lấy từ giếng lên, và Y là khối lượng của nó Hiển nhiên là mối quan hệ rất chặt giữa X và Y Nếu ta ký hiệu N {x n, y n }n =1 là các cặp đo lường với N mẫu thử; và vẽ chúng lên đồ thị, thì các quan sát dữ liệu này sẽ tạo thành một đường thẳng tuyến, thể hiện mối quan hệ vật… vật lý của chúng Nhưng chúng không rơi đúng vào các điểm dọc theo đường tuyến tính thể hiện quy luật liên hệ giữa khối lượng và trọng lượng nước Chúng chỉ “bám” xung quanh cái trục tuyến tính đó, vì có sai số đo lường, hoặc các tạp chất trong nước làm các quan sát lệch khỏi quy luật vật lý, mô tả mối quan hệ ổn định giữa X và Y Đồ thị 1.3: Mối quan hệ giữa trọng lượng nước X và khối lượng nước Y o (… thì quan hệ đó có xu hướng tạo ra tích ( X − EX ) (Y − EY ) > 0 Điều đó có nghĩa là Cov( X, Y ) > 0, thể hiện rằng X và Y có mối quan hệ đồng biến Ví dụ như quan hệ giữa khối lượng và trọng lượng các mẫu nước vừa nêu Nhiều khi, mối tương quan là nghịch biến, chứ không thuận Chẳng hạn như chúng ta quan sát mối quan hệ giữa điều kiện bảo trợ quá dễ dàng cho một cá nhân, hay doanh nghiệp (ký hiệu là X);… ) |= 1 Nếu đó là quan hệ phi tuyến, thì | ρ ( X, Y ) |
Xem thêm: #99 STT Anh Em, Cap về tình anh em trong xã hội chất nhất – Babelgraph