Phân tích đơn biến (univariate analysis) là gì?

marketing foundation

Tomorrow Marketers – Trong toán thống kê, phân tích dữ liệu được chia thành ba kỹ thuật – univariate analysis (phân tích đơn biến), phân tích hai biến (bivariate analysis), và phân tích đa biến (multivariate analysis). Quyết định lựa chọn kỹ thuật phân tích nào sẽ phụ thuộc vào số lượng biến, loại dữ liệu bạn có và mục tiêu của suy luận thống kê. 

Trong bài viết này, cùng Tomorrow Marketers cùng tìm hiểu phân tích đơn biến (univariate analysis) là gì, các kỹ thuật phân tích và ví dụ nhé. 

Đọc thêm: Hướng dẫn đọc và phân tích dữ liệu cho người mới bắt đầu

1. Phân tích đơn biến (univariate analysis) là gì?

Phân tích đơn biến (Univariate analysis) là một loại kỹ thuật phân tích cơ bản cho dữ liệu thống kê. Với kỹ thuật này, dữ liệu chỉ có một biến và đo lường khía cạnh về lượng của dữ liệu đó mà không xem xét tới mối quan hệ giữa nhiều biến khác nhau. 

Ví dụ: bạn cần phân tích kết quả khảo sát của một lớp học, cụ thể là đếm số lượng nam và nữ trong phòng. Dữ liệu ở đây chỉ tập trung vào một biến và lượng hóa của biến đó. 

Phân tích đơn biến về cơ bản là hình thức đơn giản nhất để phân tích dữ liệu. Mục tiêu chính của phân tích đơn biến là mô tả, tóm tắt dữ liệu và tìm ra patterns trong dữ liệu, thông qua việc tìm ra giá trị trung bình (mean), mode, giá trị trung vị (median), độ lệch chuẩn (standard deviation), độ phân tán của dữ liệu (dispersion),…

Trong đó, biến (variable) ở đây được định nghĩa là một điều kiện hoặc tập hợp con dữ liệu trong một tập dữ liệu lớn. Ví dụ: “tuổi”, “chiều cao” hoặc “cân nặng” được coi là một biến. 

2. Các kỹ thuật phân tích đơn biến

Phân tích đơn biến được tiến hành theo nhiều hướng khác nhau, và hầu hết các cách phân tích này mang tính chất mô tả. Một số kỹ thuật có thể kể đến như:  Frequency Distribution Tables, Frequency Polygons, Histograms, Bar Charts  và Pie Charts.

Đọc thêm: Data Analysis là gì – Quy trình và phương pháp phân tích dữ liệu bạn cần biết

Summary Statistics (Thống kê)

Phương pháp phổ biến nhất để thực hiện phân tích đơn biến là summary statistics. Phương pháp này được sử dụng để tóm tắt một tập hợp các quan sát, nhằm tóm tắt thông tin một cách ngắn gọn và đơn giản. 

Có hai nhóm chỉ số thống kê phổ biến nhất:

Đo lường mức độ phân tán của dữ liệu: Với loại phân tích này, bạn sẽ phân tích phạm vi của dữ liệu (range), độ trải giữa (interquartile range), phương sai (variance)  và độ lệch chuẩn (standard deviation) để mô tả mức độ phân bổ đồng đều của các giá trị trong tập dữ liệu. Cụ thể:

  • Range – sự khác biệt giữa giá trị tối đa và giá trị tối thiểu trong tập dữ liệu 
  • Interquartile Range – chênh lệch giữa 50% giá trị
  • Variance – đại lượng đo lường sự phân tán của các điểm dữ liệu so với giá trị trung bình
  • Standard Deviation- đại lượng đo lường trung bình mức độ phân tán của dữ liệu, standard deviation bằng căn bậc hai của variance.

Đo lường mức độ tập trung: Đo lường giá trị trung bình (mean) và giá trị trung vị (median) sẽ giúp mô tả giá trị tập trung và giá trị chính giữa của tập dữ liệu.

Frequency distribution table (Bảng phân phối tần suất)

Tần suất của một dữ liệu là số lần giá trị đó xuất hiện trong tổng thể dữ liệu đang xem xét. Bảng phân phối tần suất có thể hiển thị các biến dữ liệu phân loại (categorical data) hoặc dữ liệu dạng số (numeric data). Bảng phân phối tần suất sẽ giúp bạn có cái nhìn tổng quan mô tả về tập dữ liệu, nhằm đưa ra pattern chung của dữ liệu.

Bar chart (Biểu đồ cột/biểu đồ thanh)

Bar chart có thể được trình bày theo chiều dọc hoặc chiều ngang, nhằm so sánh sự chênh lệch của một biến trong các mốc thời gian khác nhau.

Với biểu đồ thanh, trục hoành (trục x) sẽ biểu thị các đầu dữ liệu khác nhau và trục tung (trục y) sẽ biểu diễn giá trị. Biểu đồ thanh nhìn vào tập dữ liệu và so sánh. 

Histogram (Biểu đồ tần suất)

Histogram có phần tương tự bar chart, nhưng đo tần suất thay vì xu hướng theo thời gian. Trục x của histogram liệt kê các giá trị của bộ dữ liệu và các khoảng của biến, trục y là tần suất. Từ histogram, bạn có thể phân tích tần suất xuất hiện của một phạm vi dữ liệu hoặc của các khoảng dữ liệu khác nhau.

Frequency Polygon (Đa giác tần suất)

Đa giác tần suất có phần tương tự với histogram, tuy nhiên đa giác tần suất có thể được sử dụng để so sánh các tập dữ liệu hoặc để biểu diễn phân phối tần suất tích lũy. Đa giác tần suất được biểu diễn dưới dạng biểu đồ đường.

Pie Chart (Biểu đồ tròn)

Biểu đồ tròn giúp mô tả tỷ lệ phần trăm của mỗi phần tử trong một tổng thể. Tổng tỷ lệ của mỗi các mục dữ liệu sẽ bằng 100%. 

Đọc thêm: Data Visualization là gì? Các loại biểu đồ giúp bạn trực quan hóa dữ liệu

3. Ví dụ của phân tích đơn biến

Phân tích dữ liệu đơn biến là kỹ thuật đơn giản nhất bởi bạn chỉ cần xử lý duy nhất một biến và quan tâm tới những thay đổi mô tả của biến đó. Kỹ thuật này không yêu cầu bạn phải nghiên cứu sự tương quan và mối quan hệ nhân quả của hai biến và thường được sử dụng để mô tả dữ liệu và tìm ra pattern trong đó.

Ví dụ, “chiều cao” của các học sinh trong một lớp học được coi là dữ liệu đơn biến. Các giá trị mô tả duy nhất biến chiều cao và không thể hiện bất kỳ mối tương quan với biến nào khác. Từ những dữ liệu này, bạn có thể rút ra pattern, mức độ phân tán và mức độ tập trung của dữ liệu chiều cao học sinh thông qua histograms, frequency distribution table, bar charts,… Dựa vào đây, bạn có thể trả lời các câu hỏi như: Học sinh nào cao nhất trong lớp học? Chiều cao trung bình của học sinh trong lớp? Chiều cao của các học sinh có xu hướng tập trung ở khoảng giá trị nào?

Trong ví dụ trên, quá trình phân tích chỉ tập trung vào biến “chiều cao”. Nếu có thêm biến “cân nặng”, “tuổi” hay “giới tính” được đưa vào phân tích, bạn sẽ cần sử dụng các kỹ thuật phân tích hai biến (bivariate analysis), và phân tích đa biến (multivariate analysis). 

Tạm kết

Phân tích đơn biến mặc dù là một trong những kỹ thuật phân tích đơn giản nhất, nhưng giá trị nó mang lại trong việc mô tả dữ liệu là không thể phủ nhận. Vì vậy, để có thể tận dụng đúng cách và khai thác tối đa nguồn sức mạnh từ dữ liệu, bạn cần nâng cao tư duy và kỹ năng thống kê mô tả nhằm phân tích và đảm bảo các phân tích đưa ra chính xác. Tư duy làm việc, xử lý, phân tích dữ liệu để tìm ra các insight ẩn, phát hiện vấn đề, tránh đưa ra các quyết định cảm tính là nội dung chính mà khóa học Data Analysis của Tomorrow Marketers sẽ giúp bạn trang bị. Tham khảo ngay nhé!

Tagged: