Site icon Nhạc lý căn bản – nhacly.com

Interquartile Range Là Gì – Định Nghĩa, Ví Dụ, Giải Thích

trong Data Mining and Business Intelligence…Data Mining and Business Intelligence…(Entire Site)
Tìm kiếm

giamcanherbalthin.com » Data Mining and Business Intelligence » Data Mining and Business Intelligence » Một ít kiến thức Thống kê cho khai phá dữ liệu

*Ta biết rằng 4 nghành tương quan của khám phá tài liệu gồm thống kê ( statistics ), Máy học ( Machine Learning ), Cơ sở tài liệu ( Database ) và biễu diễn tri thức ( Visualization ). Trong 4 nghành nghề dịch vụ này thì thống kê đóng vài trò rất quan trọng trong quy trình tìm hiểu và khám phá tài liệu nhất là trong kiểm định tác dụng của quy mô và trong nhìn nhận tri thức phát hiện được .Bạn đang xem : Interquartile range là gìBài viết này ra mắt sơ lược về những khái niệm cơ bản của thống kê dùng trong miêu tả tài liệu như những tham số thống kê giám sát xu thế tập trung chuyên sâu của tài liệu ( mean, Median, mode ) và đo lường và thống kê sự biến thiên của tài liệu ( Rang, Variance và Standard Deviation, Standard Error ) .

Để dễ hình dung, ta bắt đầu với ví dụ đơn giản sau:

Giả sử rằng bạn chạy 100 m trong sáu lần, mỗi lần chạy bạn dùng đồng hồ đeo tay đo lại thời hạn chạy ( tính bằng giây ) và tác dụng 6 lần chạy của bạn gồm sáu giá trị ( còn gọi là quan sát ) như sau 😡 = { 25.1, 21.2, 17.9, 23.0, 24.6, 19.5 }Dữ liệu này cho bạn biết những thông tin gì ? Sau đây là một số ít thống kê đơn thuần của tài liệu về thời hạn chạy 100 m của bạn :- Thời gian chạy trung bình ( mean ) là 21.9 giây- Giá trị giữa ( còn gọi là trung vị – median ) là 22.1 giây- Thời gian chạy nhiều nhất ( maximum ) là 25.1 giây và thời hạn chạy tối thiểu ( minimum ) là 17.9 giây. Nếu so sánh với kỷ lục quốc tế về 100 m là 9.78 giây thì bạn biết rằng mình chạy để tập thể dục cho khỏe chứ không phải là vận động viên điền kinh chuyên nghiệp !- Phương sai ( variance ) là 8.2 giây bình phương và độ lệch chuẩn ( standard Deviation ) là 2.9 giây

Đo lường số đo xu hướng tập trung (Central Tendency)

Để giám sát khuynh hướng tập trung chuyên sâu của tài liệu người ta thường dùng 3 tham số đó là số trung bình ( trung bình số học – Arithmetic mean hay average ), số trung vị ( median ) và số mode .

Nội dung chính

Mean (số trung bình):Trung bình số học được tính đơn giản bằng tổng của tất cả các giá trị của dữ liệu trong mẫu chia cho kích thước mẫu.

Với tài liệu về chạy 100 m trên ta có

Median (trung vị):

Trong lý thuyết xác suất và thống kê, số trung vị (Median) là giá trị giữa trong một phân bố chia phân bố thành 2 nhóm mà trong đó số các số trong mỗi nhóm bằng nhau. Nói cách khác, nếu m là trung vị của một phân bố nào đó thì 1/2 cá thể trong phân bố đó có giá trị nhỏ hơn hay bằng m và một nửa còn lại có giá trị bằng hoặc lớn hơn m.

Median được tính như sau: Sắp xếp dữ liệu và lấy giá trị ở giữa. Nếu số giá trị là một số chẳn thì median là trung bình của 2 giá trị ở giữa. Với số liệu trên ta có median=22.1



Ký hiệu: floor function). ceiling function) x ( p ) : Trả về giá trị tại vị trí p trong mẫu x sau khi đã sắp xếp x tăng dần. Trong ví dụ trên ta có n = 6 ,

Mode (Yếu vị)

Mode là số có tần suất xuất hiện nhiều nhất trong mẫu. Nếu trong mẫu không có số nào xuất hiện lặp lại thì không có mode.

Với mẫu dữ liệu trên thì không có mode.

So sánh giữa Mean, Median và Mode

Trong 3 tham số Mean, Mode và Median thì Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh nhất.Xem thêm : Ntn Vlogs Là Ai ? Ntn Vlogs Youtube Channel

Trở lại ví dụ chạy 100 m trên, giả sử sau khi chạy hết 6 lần, bạn chạy tiếp lần thứ 7. Lần này đùng một cái chân bạn bị đau và bạn đi bộ thay vì chạy và tác dụng thời hạn của lần này là 79.9 giây. Bạn cố gắng nỗ lực thử thêm lần nữa và tác dụng vẫn 79.9 giây. Bây giờ ta có Sample về 8 lần chạy như sau :

x={25.1, 21.2, 17.9, 23.0, 24.6, 19.5, 79.9, 79.9}

Các giá trị Mean, Median và Mode so sánh giữa 2 Sample như sau :

Central tendency

6 measurements

8 measurements

Mean

21.9 giây 36.4 giây

Median

22.1 giây 23.8 giây

Mode

Not available 79.9 giây

giamcanherbalthin.com » Data Mining and Business Intelligence » Data Mining and Business Intelligence » Một ít kiến thức và kỹ năng Thống kê cho tìm hiểu và khám phá tài liệu

Nếu bạn quan sát cẩn thận, đối với 6 lần chạy đầu tiên thì thời gian chính gian chạy còn 2 lần sau có sự khác biệt rất lớn so với 6 lần chạy ban đầu (2 giá trị này được xem là bất thường của dữ liệu – outlier) thực chất nó không phải thời gian chạy mà là thời gian đi bộ. Nếu bạn không bị đau thì thời gian chạy dao động quanh Median. Theo bảng trên ta thấy rằng 2 Outliers không ảnh hưởng nhiều đến Median (từ 22.1 lên 23.8) nhưng ảnh hưởng rất lớn đến Mean (từ 21.9 lên 36.4) và Mode. Mặc dù Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh hơn Mean vì Median không bị ảnh hưởng bởi các Outliers nhưng nhiều người vẫn thích sử dụng Mean để đo lường xu hướng tập trung của dữ liệu vì dễ tính hơn không cần phải sắp xếp dữ liệu như Median.

Mode rất hữu ích đối với dữ liệu có kiểu dữ liệu phân loại (nominal). Đối với các dữ liệu có kiểu phân loại ta không thể dùng Mean hay Median vì nó không có ý nghĩa gì mà phải dùng Mode. Ví dụ nếu dữ liệu mô tả giới tính là nominal và 1 là nam, 0 là nữ thì Mean hay Median là 0.5 không có ý nghĩa gì. Trong khi đó Mode cho biết tần suất nam hay nữ xuất hiện nhiều nhất.
Quartiles (tứ phân vị)rất có ích so với tài liệu có kiểu tài liệu phân loại ( nominal ). Đối với những tài liệu có kiểu phân loại ta không hề dùng Mean hay Median vì nó không có ý nghĩa gì mà phải dùng Mode. Ví dụ nếu tài liệu miêu tả giới tính là nominal và 1 là nam, 0 là nữ thì Mean hay Median là 0.5 không có ý nghĩa gì. Trong khi đó Mode cho biết tần suất nam hay nữ Open nhiều nhất. Quartiles ( tứ phân vị )

Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất (Q1), thứ nhì (Q2), và thứ ba (Q3). Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.

Tứ phân vị được xác lập như sau :· Sắp xếp những số theo thứ tự tăng dần· Cắt dãy số thành 4 phàn bằng nhau· Tứ phân vị là những giá trị tại vị trí cắt
Độ trải giữa ( Interquartile Range – IQR )Interquartile Range được xác lập như sau :

Box Plot (Biểu đồ hộp)

Box Plot giúp bạn màn biểu diễn những đại lượng quan trọng của dãy số như min, max, Quartile, Interquartile Range một cách trực quan, dễ hiểu. Một Box plot có dạng như sau :

Đo lường sự biến thiên của dữ liệu (Variation of Data)

Để biết xu thế tập trung chuyên sâu của tài liệu ta dùng những tham số như Mean, Median, Mode. Tuy nhiên, một thắc mắc quan trọng nữa cần phải vấn đáp khi xem xét một chất lượng của mẫu là “ làm thế nào giám sát sự biến thiên ( hay sự phân tán ) của tài liệu trong mẫu ? ” Vì hoàn toàn có thể 2 mẫu có cùng trung bình nhưng sự biến thiên của tài liệu là khác nhau.

Để đo lường sự biến thiên (thường so với giá trị trung bình) của dữ liệu người ta thường dùng các tham số Range (khoảng biến thiên), Interquartile Range (IQR – Khoảng tứ phân vị), Standard Deviation (độ lệch chuẩn), Variance (phương sai), Standard Error (sai số chuẩn)

Range (Khoảng biến thiên): Được tính bằng cách lấy giá trị lớn nhất – giá trị nhỏ nhất

Range = Max – Min

Trong sample gồm 6 quan sát về thời gian chạy 100 m trong ví dụ trên ta có

Range = 25.1- 17.9 = 7.2 giây

Deviation (độ lệch)

Cả 2 tham số Range và IQR không quan tâm đến giá trị trung tâm (thường sử dụng giá trị trung bình). Khi muốn đo lường sự phân tán của dữ liệu so với giá trị trung tâm, ta đo lường độ lệch của mỗi quan sát (cá thể) so với giá trị trung tâm. Giả sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi đó ta có tổng độ lệch của tất cả quan sát với giá trị trung bình là:


Vì tổng độ lệch này bằng 0 nên ta không hề dùng độ lệch này để diễn đạt sự phân tán của tài liệu. ( Đặc trưng của số trung bình toán học ( mean ) là san bằng mọi bù trừ. Vì vậy khi tính tổng toàn bộ những độ lệch thì tác dụng luôn bằng 0 ) Để khắc phục yếu tố này, ta hoàn toàn có thể sử dụng tổng những giá trị tuyệt đối những độ lệch Để vô hiệu ảnh hưởng tác động của kích cỡ mẫu ( vì mỗi mẫu có kích cỡ khác nhau ) ta chia tổng này cho size mẫu, ta có : Tuy nhiên yếu tố của giá trị tuyệt đối là tính không liên tục ( discontinuity ) tại gốc tọa độ ( trong trường hợp này là mean ) thế cho nên những nhà thống kê đã tìm ra công thức tốt hơn để diễn đạt sự biến thiên của tài liệu đó là phương sai ( Variance ) và độ lệch chuẩn ( Standard Deviation ).

Variance (Phương sai) và độ lệch chuẩn (Standard Deviation)

Để tránh tổng các độ lệch bằng 0 và loại bỏ ảnh hưởng của kích thước mẫu người ta tính tổng bình phương các độ lệch và chia cho kích thước mẫu trừ 1 (hiệu chỉnh). Ta có kết quả là “trung bình tổng bình phương các độ lệch” và gọi là phương sai mẫu (Sample Variance) Để tránh tổng những độ lệch bằng 0 và vô hiệu ảnh hưởng tác động của kích cỡ mẫu người ta tính tổng bình phương những độ lệch và chia cho size mẫu trừ 1 ( hiệu chỉnh ). Ta có hiệu quả là “ trung bình tổng bình phương những độ lệch ” và gọi là phương sai mẫu ( Sample Variance )

Phương sai là tham số rất tốt để đo lường và thống kê sự biến thiên ( hay phân tán ) của tài liệu trong mẫu vì nó đã chăm sóc đến độ lệch của mỗi quan sát so với số trung bình, vô hiệu tác động ảnh hưởng của size mẫu và là smooth Function. Tuy nhiên, điểm yếu của phương sai là không cùng đơn vị chức năng tính với Mean. Đơn vị tính của phương sai là bình phương của đơn vị chức năng tính của trung bình. Chẳn hạn, đơn vị chức năng tính của thời hạn chạy trung bình là giây trong khí đó đơn vị chức năng tính của phương sai là giây bình phương. Để xử lý yếu tố này, người ta lấy căn bậc 2 của phương sai và tác dụng này gọi là độ lệch chuẩn ( Standard Deviation ) Một yếu tố nữa cần chăm sóc là mỗi lần lấy mẫu ta có 1 số trung bình ( mean ) và từ đó ta tính được phương sai của mẫu. Phương sai của mẫu cho biết sự biến thiên của những thành viên trong quần thể. Giả sử ta lấy mẫu k lần, và ta có k số trung bình. Để diễn đạt sự biến thiên của những số trung bình mẫu lấy từ toàn diện và tổng thể người ta sử dụng đại lượng sai số chuẩn ( Standard Error – SE ) được tính bằng cách lấy độ lệch chuẩn chia cho căn bậc hai của size mẫu :

Tóm lại: Độ lệch chuẩn mô tả biến thiên của các cá thể trong quần thể còn sai số chuẩn mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể. Một cách dễ hiểu nếu ta lấy mẫu k lần từ tổng thể và ta có k số trung bình mẫu thì độ lệch chuẩn của k số trung bình mẫu gọi là sai số chuẩn (chú ý k thường rất lớn, hàng triệu hay hàng tỷ lần vì trong thực tế ta không biết được số trung bình của tổng thể).

Tương quan (Correlation)

Trong lý thuyết xác suất và thống kê, hệ số tương quan (Coefficient Correlation) cho biết độ mạnh của mối quan hệ tuyến tính giữa hai biến số ngẫu nhiên. Từ tương quan (Correlation) được thành lập từ Co- (có nghĩa “together”) và Relation (quan hệ).

Hệ số đối sánh tương quan giữa 2 biến hoàn toàn có thể dương ( positive ) hoặc âm ( negative ). Hệ số đối sánh tương quan dương cho biết rằng giá trị 2 biến tăng cùng nhau còn thông số tương quan âm thì nếu một biến tăng thì biến kia giảm .Độ mạnh và hướng đối sánh tương quan của 2 biến được miêu tả như sau :
Hệ số tương quan có thể nhận giá trị từ -1 đến 1: Hệ số đối sánh tương quan hoàn toàn có thể nhận giá trị từ – 1 đến 1 :

Ví dụ: Có dữ liệu (bivariate) về nhiệt độ (Temperature) và doanh thu bán kem (Ice Cream Sales) như sau:

Đồ thị Scatter Plot của dữ liệu trên :

Từ Scatter Plot, ta có thể thấy rằng nhiệt độ càng cao thì doanh thu bán kem càng cao. Trong dữ liệu trên, hệ số tương quan là 0.9575(sẽ trình bày cách tính ở phần sau) và mối quan hệ giữa nhiệt độ và doanh số bán kem là rất mạnh. Hệ số tương quan dương nói rằng nhiệt độ tăng thì doanh số bán kem cũng tăng.

Tương quan không có tính nhân quả ( Causation ) .

Cách tính hệ số tương quan (Coefficient Correlation)

Trong ví dụ trên, hệ số tương quan là 0.9575. Bây giờ sẽ trình bày cách tính hệ số này theo công thức Pearson (Pearson’s Correlation).

Gọi x và y là hai biến ( Trong ví dụ trên thìx là Temperature và y là Ice Cream Sales )· Bước 1 : Tính trung bình của x và y

· Bước 2: Tính độ lệch của mỗi giá trị của x với trung bình của x (lấy các giá trị của x trừ đi trung bình của x) và gọilà”a“, làm tương tự như vậy với y và gọi là “b

· Bước 3: Tính: a × b, a2b2 cho mỗi giá trị

· Bước 4: Tính tổng a × b, tổng a2 vả tổng b2

· Bước 5: Chia tổng của a × b cho căn bậc 2 của

Công thức chung để tính thông số đối sánh tương quan giữa 2 đại lượng ngẫu nhiên x và y làDưới đây minh họa việc tính thông số đối sánh tương quan của ví dụ trên
Các tham số đo lường xu hướng tập trung và biến thiên của dữ liệu có thể được tính dễ dàng bởi các hàm trong MS Excel. Sau đây giới thiệu một số hàm liên quan và ví dụ minh họacách tính các tham số trên trong MS Excel

Đo lường xu hướng trung (Central tendency)

AVERAGE : Tính trung bình số học ( mean ) MEDIAN : Tính trung vị MODE : Tính số mode

Đo lường độ biến thiên (Variation)

MAX – MIN : Tính Range PERCENTILE ( array, k ) : Tìm phân vị thứ k của những giá trị trong một mảng tài liệu QUARTILE ( array, 3 ) – QUARTILE ( array, 1 ) : Tính Inter Quartile Range ( IQR ) VAR : Tính phương sai của mẫu VARPA : Tính phương sai tổng thể và toàn diện ( Chú ý, công thức tính phương sai toàn diện và tổng thể giống như phương sai mẫu nhưng thay vì chia cho n-1 như phương sai mẫu thì chia cho n. trong đó n là size mẫu ) STDEV : Tính độ lệch chuẩn của mẫu STDEVPA Tính độ lệch chuẩn của tổng thể và toàn diện

Một số hàm liên quan khác

SUM : Tính tổng các số

SQRT : Căn bậc hai CEILING : Ceiling function. CEILING ( k ) cho số nguyên nhỏ nhất lơn hơn k. Ví dụ : CEILING ( 3.5,1 ) = 4 FLOOR : Floor function. FLOOR ( k ) cho số nguyên lớn nhất nhỏ hơn k. Ví dụ : FLOOR ( 3.5 ) = 3 )

Source: http://139.180.218.5
Category: tản mạn

Exit mobile version