Tomorrow Marketers – Thống kê là một phần kiến thức nền tảng của lĩnh vực dữ liệu. Nếu không nắm chắc kiến thức thống kê, bạn sẽ rất khó để hiểu, mô tả hoặc giải thích dữ liệu. Ví dụ, bạn sẽ cần sử dụng kiến thức thống kê để suy luận kết quả khảo sát về dân số dựa trên một sample được rút ra từ population. Bên cạnh đó, thống kê cũng là kiến thức nền tảng để bạn phát triển các mô hình dự đoán trong Machine Learning.
Trong bài viết này, Tomorrow Marketers sẽ giải thích 10 khái niệm thống kê cơ bản nhất.
1. Tổng thể (population) và mẫu (sample)
Tổng thể (population) là tất cả các phần tử trong một nhóm. Ví dụ, sinh viên cao đẳng – đại học tại US được coi là một tổng thể bao gồm tất cả các sinh viên ở nhiều độ tuổi, giới tính tại Mỹ; tất cả những người ở độ tuổi từ 18 – 25 tuổi tại châu Âu được coi là một tổng thể bao gồm tất cả những người phù hợp với yêu cầu đó.
Tuy nhiên, việc thực hiện các thu thập, tổng hợp dữ liệu từ tất cả những đối tượng này không phải lúc nào cũng khả thi và dễ dàng. Vì vậy, chúng ta cần tới sample.
Mẫu (sample) là một tập hợp con của population. Ví dụ, 1000 sinh viên tại Chicago là một sample của population “tất cả sinh viên tại Mỹ”.
2. Phân phối chuẩn (normal distribution)
Phân phối xác suất (probability distribution) cho thấy khả năng xảy ra của các biến cố (giá trị/ kết quả) của một sự kiện hoặc thí nghiệm.
Các hàm phân phối xác suất rất hữu ích trong phân tích dự đoán (predictive analytics) hoặc Machine Learning. Dựa vào đây, ta có thể đưa ra dự đoán về một population dựa trên hàm phân phối xác suất của một sample từ population đó.
Phân phối chuẩn (còn được gọi là phân phối Gaussian) là một hàm phân phối xác suất có đường cong hình chuông. Phân phối chuẩn có dạng tổng quát giống nhau, chỉ khác giá trị trung bình (mean = μ) và phương sai (variance = σ^2).
Phân phối chuẩn tắc (standard normal distribution) là phân phối chuẩn với giá trị trung bình (mean = μ) bằng 0 và độ lệch chuẩn (standard deviation = σ) bằng 1.
Dưới đây là hình minh họa hình dạng của một đường cong phân phối chuẩn được tạo ra từ một sample ngẫu nhiên được trả về bởi hàm numpy.random.randn của NumPy. Đỉnh của đường cong là giá trị có xác suất cao nhất mà biến có thể nhận.
Dưới đây là biểu đồ tiêu chuẩn của phân phối chuẩn. Các tỷ lệ phần trăm biểu thị phần trăm dữ liệu rơi vào khoảng giá trị đó. Càng rời xa giá trị trung bình (mean = μ = 0), xác suất có được các giá trị đó càng giảm.
3. Các chỉ số đo lường mức độ tập trung (Measure of Centre of tendency): Mean, median, và mode
Mức độ tập trung của dữ liệu là những giá trị ở trung tâm của một phân phối xác suất. Các chỉ số được sử dụng nhiều nhất là mean, median, và mode.
- Mean (giá trị trung bình) là trung bình cộng của tập dữ liệu.
- Median (giá trị trung vị) là giá trị của đơn vị chính giữa trong một tập dữ liệu sau khi các giá trị trong tệp dữ liệu được sắp xếp theo thứ tự.
- Mode là giá trị xuất hiện nhiều lần nhất trong một tập dữ liệu. Một tập dữ liệu có thể có 0 mode, 1 mode hoặc rất nhiều mode.
4. Các chỉ số đo lường mức độ phân tán của dữ liệu (Measures of variability): Variance và standard deviation
Variance (phương sai) là phép đo lường sự phân tán của dữ liệu xung quanh giá trị trung tâm (mean). Variance càng lớn cho thấy sự phân tán của dữ liệu càng lớn.
Variance được tính bằng cách cộng tất cả bình phương chênh lệch của các giá trị trong tập dữ liệu so với giá trị trung bình, sau đó chia cho số lượng mẫu.
Standard deviation (độ lệch chuẩn) là phép đo lường mức độ phân tán của các giá trị. Standard deviation là căn bậc hai của variance.
Lưu ý: Mean, median, mode, variance, và standard deviation là các phép đo lường cơ bản trong thống kê mô tả có thể giúp bạn hiểu và giải thích một biến số.
5. Covariance (hệ số hiệp phương sai) và correlation coefficient (hệ số tương quan)
Covariance (hệ số hiệp phương sai) là phép đo định tính mức độ tuyến tính (tương quan) giữa hai biến số x và y. Cụ thể, covariance so sánh độ lệch (deviation) của hai biến số so với giá trị trung bình (mean).
Hình dưới đây biểu thị một số giá trị của hai biến ngẫu nhiên x và y. Dấu chấm màu cam biểu diễn giá trị trung bình của các biến này. Khi giá trị x tăng, giá trị của y cũng tăng và ngược lại. Do đó, x và y có một mối quan hệ đồng biến và có hiệp phương sai dương (positive covariance).
Dưới đây là công thức tính covariance của hai biến ngẫu nhiên, trong đó E là giá trị kỳ vọng và µ là giá trị trung bình (mean).
Lưu ý: Covariance của một biến số với chính nó là giá trị variance của biến số đó.
Hệ số tương quan (correlation coefficient) là sự chuẩn hóa hệ số hiệp phương sai (covariance) theo độ lệch chuẩn (standard deviation) của từng biến. Correlation coefficient đo lường mức độ mạnh yếu của mối quan hệ giữa hai biến số.
Correlation coefficient được tính bằng công thức dưới đây, trong đó σ là standard deviation.
Correlation coefficient dao động trong khoảng từ -1 tới 1.
- Correlation coefficient bằng -1 thể hiện mối quan hệ nghịch biến tuyệt đối.
- Correlation coefficient bằng 1 thể hiện một mối quan hệ đồng biến tuyệt đối.
- Correlation coefficient bằng 0 thể hiện không có quan hệ tuyến tính nào giữa hai biến số.
6. Định lý giới hạn trung tâm (Central limit theorem)
Trong nhiều lĩnh vực, bao gồm cả khoa học tự nhiên và xã hội, khi chưa biết phân phối của một biến ngẫu nhiên, người ta sẽ sử dụng phân phối chuẩn. Định lý giới hạn trung tâm (Central limit theorem – CLT) sẽ giải thích tại sao phân phối chuẩn được sử dụng trong những trường hợp như vậy.
Định lý giới hạn trung tâm là lý thuyết cho rằng, với một cỡ mẫu đủ lớn từ một tổng thể có phương sai hữu hạn, giá trị trung bình của mẫu sẽ có xu hướng phân phối chuẩn và không chịu ảnh hưởng từ phân bố của tổng thể.
Giả sử, bạn cần tìm hiểu phân bố chiều cao của tất cả những người 20 tuổi trong một quốc gia. Để thu thập tất cả dữ liệu này gần như là bất khả thi hoặc phải tốn rất nhiều công sức, nguồn lực và thời gian. Thay vào đó, bạn cần lấy một sample của những người 20 tuổi trên toàn quốc và tính chiều cao trung bình của những người trong sample này. Định lý giới hạn trung tâm sẽ cho rằng khi càng có nhiều sample từ population hơn, phân bố của mẫu sẽ càng gần với phân phối chuẩn. Khi dữ liệu được phối chuẩn, giá trị trung bình và độ lệch chuẩn sẽ dễ dàng tính toán hơn.
7. Giá trị p (P-value)
Giả sử, chúng ta có một biến ngẫu nhiên A và giá trị x. Giá trị p của x là xác suất mà A nhận giá trị x hoặc các giá trị khác ít có khả năng xảy ra hơn.
Giá trị p được sử dụng trong các phép thử nghiệm giả thuyết trong thống kê. Trong đó, giả thuyết rỗng (H0) cho rằng không có ý nghĩa thống kê giữa hai biến trong giả thuyết. Giả thuyết này nhằm kiểm chứng tính chính xác của giả thuyết đặt ra và cần được bác bỏ để đi tới các giả thuyết thay thế. Giá trị p đóng vai trò mà tại đó, giả thuyết rỗng sẽ bị bác bỏ. Giá trị p càng nhỏ, tính chắc chắn của giả thuyết thay thế càng cao.
Biểu đồ dưới đây cho thấy phân phối xác suất của biến A. Khả năng biến A có giá trị bằng 10 có xác suất xảy ra cao nhất. Giá trị > 10 hoặc < 10 đều ít có xác suất xảy ra hơn.
Giả sử, xuất hiện thêm một biến ngẫu nhiên B và bạn muốn xem liệu giá trị của B có lớn hơn giá trị của A hay không. Giá trị trung bình (mean) của trung bình mẫu thu được từ B là 12,5. Như vậy, giá trị p của 12,5 là vùng màu xanh lá trong biểu đồ dưới đây. Giá trị này cho biết xác suất nhận được giá trị 12,5 hoặc giá trị lớn hơn.
Giả sử giá trị p là 0,11, vậy có thể hiểu và diễn giải con số đó như nào? Giá trị p là 0,11 có nghĩa 89% khả năng kết quả là chắc chắn, 11% khả năng kết quả là do ngẫu nhiên. Tương tự, giá trị p là 0,05 có nghĩa là 5% khả năng kết quả là do cơ hội ngẫu nhiên.
Lưu ý: Giá trị p càng thấp thì sự chắc chắn của kết quả càng cao.
Nếu giá trị trung bình (mean) của trung bình mẫu thu được từ biến ngẫu nhiên B là 15, giá trị p sẽ thấp hơn 0,11.
Đọc thêm: Percentile là gì? Percentile được ứng dụng và được tính toán như nào?
8. Giá trị kỳ vọng của các biến ngẫu nhiên (Expected value of random variables)
Giá trị kỳ vọng của một biến ngẫu nhiên là trung bình có trọng số của tất cả các giá trị có thể có của biến đó, hay là được tính bằng tổng các tích giữa xác suất xảy ra của mỗi giá trị có thể của biến với giá trị đó: E(X) = ∑XiP(Xi) (i=1,…n). Trọng số ở đây là xác suất của biến ngẫu nhiên lấy một giá trị cụ thể.
Giá trị kỳ vọng được tính khác nhau đối với các biến ngẫu nhiên rời rạc (discrete random variables) và biến ngẫu nhiên liên tục (continuous random variables).
- Biến ngẫu nhiên rời rạc có thể nhận lại một số giá trị hữu hạn hoặc vô số giá trị đếm được. Ví dụ, số ngày mưa trong năm là một biến ngẫu nhiên rời rạc.
- Biến ngẫu nhiên liên tục có thể nhận vô số giá trị không đếm được. Ví dụ, thời gian bạn đi từ nhà đến văn phòng là một biến ngẫu nhiên liên tục. Tùy thuộc theo phép đo lường thời gian (giờ, phút, giây, nano giây,…), sẽ có vô số giá trị không đếm được.
Công thức cho giá trị kỳ vọng của một biến ngẫu nhiên rời rạc là E(X) = ∫Xf(X)dX, trong đó X là biến ngẫu nhiên và f(X) là hàm mật độ xác suất
Giá trị kỳ vọng của một biến ngẫu nhiên liên tục được tính toán với cùng logic nhưng sử dụng các phương pháp khác nhau. Vì các biến ngẫu nhiên liên tục có thể nhận vô số giá trị không thể đếm được nên một biến không thể nhận một giá trị cụ thể. Thay vào đó, công thức tính sẽ tập trung tính phạm vi giá trị.
Để tính xác suất của các phạm vi giá trị, công thức sẽ sử dụng các hàm mật độ xác suất (probability density functions – PDF). PDF là hàm chỉ định xác suất của một biến ngẫu nhiên sẽ nhận giá trị trong một phạm vi cụ thể.
9. Xác suất có điều kiện (Conditional probability)
Xác suất là khả năng xảy ra một sự kiện và luôn nhận giá trị từ 0 đến 1 (bao gồm cả 0 và 1). Xác suất của sự kiện A được ký hiệu là P(A) và được tính bằng số kết quả mong muốn chia cho số tất cả các kết quả.
Ví dụ: khi bạn tung một con xúc xắc, xác suất nhận được một số nhỏ hơn ba là 2/6 = 0.33, trong đó số kết quả mong muốn là 2 (1 và 2); tổng số kết quả là 6.
Ví dụ trên đã minh họa cho khái niệm xác suất không có điều kiện. Không có điều kiện hoặc giả thiết nào ràng buộc kết quả xác suất.
Trong khi đó, xác suất có điều kiện là khả năng xảy ra sự kiện A nếu một sự kiện khác có liên quan đến sự kiện A đã xảy ra.
Giả sử, có 6 quả bóng xanh và 4 quả bóng vàng được đặt trong hai hộp như hình bên dưới. Bạn sẽ được chọn ngẫu nhiên một quả bóng. Xác suất lấy được bi xanh là 6/10 = 0,6. Nếu bạn được yêu cầu chọn đúng 1 quả bóng từ hộp A, xác suất chọn được quả bóng xanh sẽ giảm. Điều kiện được xác định là “chọn từ hộp A” đã làm thay đổi xác suất của một sự kiện (chọn bi xanh). Xác suất của sự kiện A nếu sự kiện B đã xảy ra được ký hiệu là P(A|B).
10. Định lý Bayes
Định lý Bayes là lý thuyết thống kê cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất xảy ra của A khi biết B sẽ phụ thuộc vào 3 yếu tố: xác suất của sự kiện A, xác suất của sự kiện B và xác suất của sự kiện B nếu sự kiện A đã xảy ra.
Mô hình phân lớp Naive Bayes được phát triển dựa vào định lý này. Đây là một mô hình Machine Learning được dùng để phân loại các vật mẫu tuân theo định lý Bayes và một số giả định. Thuật toán giả định rằng các vật mẫu độc lập với nhau và không có mối tương quan giữa chúng.
Tạm kết
Bài viết trên đây đã giải thích một số khái niệm cơ bản và nền tảng trong thống kê mà bạn sẽ thường xuyên gặp khi làm việc với dữ liệu. Nếu bạn quan tâm hơn về các kiến thức thống kê mô tả trong phân tích dữ liệu, hãy tham khảo khóa học Data Analysis của Tomorrow Marketers nhé!
Bài viết được biên dịch từ towardsdatascience bởi Tomorrow Marketers, xin vui lòng không sao chép dưới mọi hình thức.