Thống kê Chi-Square là gì?
Một hình vuông chi ( χ 2) thống kê là một thử nghiệm đo lường mức độ mong đợi so với dữ liệu quan sát thực tế (hoặc kết quả mô hình). Dữ liệu được sử dụng trong tính toán thống kê chi bình phương phải là ngẫu nhiên, thô, loại trừ lẫn nhau, được rút ra từ các biến độc lập và được rút ra từ một mẫu đủ lớn. Ví dụ, kết quả tung đồng xu 100 lần đáp ứng các tiêu chí này.
Kiểm tra chi bình phương thường được sử dụng trong kiểm tra giả thuyết.
Công thức cho Chi-Square là
χc2 = (Oi − Ei) 2Eiwhere: c = độ tự doO = giá trị quan sát E = giá trị mong đợi (s) started {căn chỉnh} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {trong đó:} \ & c = \ text {bậc tự do} \ & O = \ text {giá trị quan sát} & E = \ text {giá trị mong đợi (s) } \ \ end {căn chỉnh} c2 = Ei (Oi Ei) 2 trong đó: c = độ tự doO = giá trị quan sát E = giá trị mong đợi (s)
Thống kê Chi-Square cho bạn biết điều gì?
Có hai loại bài kiểm tra chi bình phương chính: bài kiểm tra tính độc lập, đặt câu hỏi về mối quan hệ, chẳng hạn như, "Có mối quan hệ nào giữa giới tính và điểm SAT không?"; và bài kiểm tra mức độ phù hợp, trong đó có câu hỏi như "Nếu một đồng xu được tung 100 lần, nó sẽ xuất hiện đầu 50 lần và đuôi 50 lần?"
Đối với các thử nghiệm này, mức độ tự do được sử dụng để xác định xem có thể loại bỏ một giả thuyết null nào đó dựa trên tổng số biến và mẫu trong thử nghiệm hay không.
Ví dụ, khi xem xét lựa chọn sinh viên và khóa học, cỡ mẫu 30 hoặc 40 sinh viên có thể không đủ lớn để tạo ra dữ liệu quan trọng. Nhận được kết quả tương tự hoặc tương tự từ một nghiên cứu sử dụng cỡ mẫu 400 hoặc 500 sinh viên là hợp lệ hơn.
Trong một ví dụ khác, hãy xem xét việc tung đồng xu 100 lần. Kết quả dự kiến của việc tung một đồng xu công bằng 100 lần là những cái đầu sẽ xuất hiện 50 lần và đuôi sẽ xuất hiện 50 lần. Kết quả thực tế có thể là đầu tăng lên 45 lần và đuôi tăng lên 55 lần. Thống kê chi bình phương cho thấy bất kỳ sự khác biệt nào giữa kết quả dự kiến và kết quả thực tế.
Ví dụ về bài kiểm tra Chi bình phương
Hãy tưởng tượng một cuộc thăm dò ngẫu nhiên đã được thực hiện trên 2.000 cử tri khác nhau, cả nam và nữ. Những người trả lời được phân loại theo giới tính của họ và cho dù họ là người cộng hòa, dân chủ hay độc lập. Hãy tưởng tượng một lưới với các cột được dán nhãn cộng hòa, dân chủ và độc lập và hai hàng được dán nhãn nam và nữ. Giả sử dữ liệu từ 2.000 người trả lời như sau:
Bước đầu tiên để tính toán thống kê chi bình phương là tìm tần số dự kiến. Chúng được tính cho từng "ô" trong lưới. Vì có hai loại giới tính và ba loại quan điểm chính trị, có sáu tần số dự kiến. Công thức cho tần suất dự kiến là:
E (r, c) = n (r) × c (r) nwhere: r = row in questionc = cột in questionn = tổng tương ứng \ started {căn chỉnh} & E (r, c) = \ frac {n (r) lần c (r)} {n} \ & \ textbf {trong đó:} \ & r = \ text {hàng trong câu hỏi} & c = \ text {cột trong câu hỏi} & n = \ text {tổng số tương ứng} \ end {căn chỉnh} E (r, c) = nn (r) × c (r) trong đó: r = hàng trong questionc = cột trong questionn = tổng tương ứng
Trong ví dụ này, tần số dự kiến là:
- E (1, 1) = (900 x 800) / 2.000 = 360E (1, 2) = (900 x 800) / 2.000 = 360E (1, 3) = (200 x 800) / 2.000 = 80E (2.1) = (900 x 1.200) / 2.000 = 540E (2.2) = (900 x 1.200) / 2.000 = 540E (2, 3) = (200 x 1.200) / 2.000 = 120
Tiếp theo, đây là các giá trị được sử dụng để tính toán thống kê chi bình phương bằng công thức sau:
Chi-squared = 2E (r, c) trong đó: O (r, c) = dữ liệu quan sát cho hàng và cột đã cho \ start {căn chỉnh} & \ text {Chi-squared} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {trong đó:} \ & O (r, c) = \ text {dữ liệu quan sát cho hàng và cột đã cho} \ end {căn chỉnh} Chi-squared = E (r, c) 2 trong đó: O (r, c) = dữ liệu quan sát cho hàng và cột đã cho
Trong ví dụ này, biểu thức cho mỗi giá trị quan sát là:
- O (1, 1) = (400 - 360) 2/360 = 4.44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/4000 = 2, 96O (2, 2) = (600 - 540) 2/40 = 6, 67O (2, 3) = (100 - 120) 2/120 = 3, 33
Thống kê chi bình phương sau đó bằng tổng của các giá trị này, hoặc 32, 41. Sau đó chúng ta có thể nhìn vào một bảng thống kê chi bình phương để xem, đưa ra mức độ tự do trong thiết lập của chúng tôi, nếu kết quả có ý nghĩa thống kê hay không.
