Dữ liệu ngoại lai (outlier) là gì và xử lý những dữ liệu này như nào trong phân tích?

marketing foundation

Tomorrow Marketers – 80% thời gian làm việc của một Data Analyst dành cho việc làm sạch dữ liệu. Thực tế, rất khó để bạn có thể được làm việc với một tập dữ liệu hoàn toàn sạch sẽ và khả dụng. Sẽ có một số điểm bất thường trong tập dữ liệu đòi hỏi bạn phải tìm ra và làm sạch trước khi phân tích nhằm đảm bảo kết quả phân tích chính xác. Các dữ liệu bất thường này có thể do các nguyên nhân khách quan (các yếu tố, sự kiện bất thường) và chủ quan (sai sót trong nhập liệu). 

Đọc thêm: Data Cleaning là gì? Hướng dẫn các bước làm sạch dữ liệu

Dữ liệu ngoại lai (outliers) là gì?

Dữ liệu ngoại lai là những giá trị dữ liệu (records) được ghi nhận có sự khác biệt bất thường so với những giá trị dữ liệu khác, không theo một quy tắc chung nào và có thể gây ra sự sai lệch trong kết quả phân tích và việc xây dựng các thuật toán dự đoán.  

Phát hiện và hiểu rõ các dữ liệu ngoại lai rất quan trọng, bởi:

  1. Các dữ liệu ngoại lai có thể làm sai lệch và tạo ra thiên kiến tiêu cực cho toàn bộ kết quả của một phân tích;
  2. Trong một số trường hợp, các giá trị ngoại lai có thể cung cấp insight cho một kết quả phân tích;
  3. Loại bỏ outlier trong dataset sẽ giúp kết quả phân tích của bạn chính xác và sát với thực tế hơn.

Làm thế nào để xác định những giá trị ngoại lai?

Xác định trực tiếp trong bảng/trang tính của tập dữ liệu

Cách đơn giản nhất để tìm ra các giá trị ngoại lai chính là tìm trực tiếp trong bảng/trang tính của một tập dữ liệu. Có một số trường hợp các giá trị ngoại lai là do lỗi đánh máy trong quá trình nhập liệu. 

Ví dụ, cột “Tuổi” của Antony Smith có giá trị ngoại lai lên tới 470 tuổi. Giá trị chính xác có thể là 47, 70 hoặc 40 tuổi. 

Ví dụ về cách xác định giá trị ngoại lai trong bảng của tệp dữ liệu

Để tìm ra những giá trị ngoại lai trong các trang tính Excel/Google Sheets, bạn cần sắp xếp (sort) dữ liệu theo thứ tự (từ bé tới lớn hoặc ngược lại) và tìm ra các giá trị cao hoặc thấp bất thường. 

Mặc dù cách tiếp cận này không định lượng được mức độ khác thường của ngoại lệ, nhưng điểm cộng của phương pháp này chính là tính dễ dàng và nhanh chóng khi áp dụng để xác định các điểm dữ liệu có giá trị cao hoặc thấp bất thường.

Tuy nhiên, phương pháp này chỉ có thể áp dụng trong trường hợp tập dữ liệu này có kích thước nhỏ (có ít bản ghi). Nhưng khi database lên tới hàng nghìn, hàng triệu hoặc hàng tỷ dòng dữ liệu với hàng chục, hàng trăm trường dữ liệu thì làm xác định giá trị ngoại lai theo phương pháp thủ công này là bất khả thi và tốn rất nhiều thời gian, công sức. 

Sử dụng biểu đồ

Trực quan hóa dữ liệu theo biểu đồ có thể giúp bạn xác định một cách rõ ràng rằng có điểm dữ liệu nào khác biệt với những giá trị dữ liệu còn lại. 

Có 3 loại biểu đồ bạn có thể sử dụng để xác định dữ liệu ngoại lai, đó là: boxplot, histogram và scatterplots.

Đối với Histogram và heatmap, outlier thường sẽ có tần suất phân phối tách biệt hẳn so với phân phối của các giá trị khác trong tập dữ liệu. 

Xác định giá trị ngoại lai với biểu đồ Histogram

Tham khảo case study xác định giá trị ngoại lai trong database của hệ thống dữ liệu về sức khỏe của người dân Brazil để hiểu hơn về phương pháp này.

Trong một nghiên cứu được công bố trên trang web của Aquarela, chúng tôi đã phân tích các yếu tố khiến mọi người vắng mặt trong các cuộc hẹn y tế đã được lên lịch trong hệ thống y tế công cộng của thành phố Vitória thuộc bang Espirito Santo, gây thiệt hại khoảng 8 triệu đô la Mỹ một năm triệu.

Từ tập dữ liệu, các Data Analyst đã tìm ra một số xu hướng chung: trẻ em thường không bỏ lỡ các cuộc hẹn; và phụ nữ tham gia tư vấn nhiều hơn nam giới. Tuy nhiên, một trường hợp gây tò mò là trường hợp của một trường hợp ngoại lệ, ở tuổi 79, bà đã lên lịch tư vấn trước 365 ngày và thực sự có mặt trong cuộc hẹn của mình.

Đây là một trường hợp ngoại lệ nhất định cần được tìm hiểu, bởi vì hành vi của người phụ nữ này có thể mang lại thông tin liên quan về các biện pháp có thể được áp dụng để tăng tỷ lệ có mặt trong lịch trình. Biểu đồ dưới đây đã trực quan hóa mẫu ngẫu nhiên với 8,000 đơn vị mẫu, giúp dễ dàng nhìn ra trường hợp đặc biệt này để tìm insight.

biểu đồ trực quan hóa mẫu ngẫu nhiên với 8,000 đơn vị mẫu

Đối với Boxplot, dữ liệu ngoại lai được xác định là những dấu chấm ở 2 đầu của biểu đồ. 

Bạn có thể tham khảo thêm cách đọc biểu đồ Boxplot và xác định giá trị ngoại lai tại bài viết Biểu đồ Box plot là gì và đọc hiểu biểu đồ này như nào?

xác định giá trị ngoại lai với biểu đồ boxplot

Khi sử dụng histogram và boxplot, bạn có thể dễ dàng xác các giá trị đơn biến ngoại lai. 

Trong khi đó, bạn có thể sử dụng biểu đồ phân tán (scatter plot) để phát hiện các giá trị ngoại đa biến ngoại lai. Đối với scatter chart, dữ liệu ngoại lai thường nằm cách rất xa biểu đồ chính, với số lượng ít. 

Ví dụ, biểu đồ bên dưới xem xét hai biến, Input và Output. Biểu đồ phân tán với đường hồi quy cho thấy hầu hết các điểm dữ liệu đều tuân theo một xu hướng, trong khi có một giá trị ngoại lai được khoanh tròn lại ở khá xa so với đường biểu thị mối quan hệ hồi quy của hai biến.

Nếu phân tích đơn biến, bạn có thể thấy giá trị của biến Input (~14) không bất thường bởi các giá trị Input khác dao động trong khoảng từ 10 đến 20 trên trục X, trong khi đó, giá trị của biến Output (~50) cũng tương tự bởi nằm trong phạm vi giá trị 10 – 60 trên trục Y.

Tuy nhiên, khi phân tích đa biến, đây vẫn được xác định là giá trị ngoại lai bởi có sự khác biệt so với công thức. Data Analyst có thể xác định được rất nhiều trường hợp ngoại lệ khi phân tích hồi quy đa biến do tính chất phải phân tích nhiều biến. 

Bạn có thể cân nhắc sử dụng phương pháp phân tích thành phần chính (Principal component analysis) để phát hiện các giá trị ngoại lai, đặc biệt khi bạn có nhiều biến trong tập dữ liệu đa chiều.

sử dụng phương pháp phân tích thành phần chính (Principal component analysis) để tìm giá trị ngoại lai

Vào ngày 17 tháng 5 năm 2017, cổ phiếu của Petrobras đã giảm 15,8% và chỉ số thị trường chứng khoán (IBOVESPA) giảm 8,8% chỉ trong một ngày. Hầu hết các cổ phiếu của thị trường chứng khoán Brazil đã giảm giá mạnh vào ngày hôm đó. This strong negative variation này là động lực chính cho Joesley Batista, một trong những sự kiện chính trị gây sốc nhất xảy ra trong nửa đầu năm 2017.

Trường hợp này là giá trị ngoại lai mà Data Analyst cần xác định khi phân tích lợi nhuận trung bình hàng ngày đối với cổ phiếu của Petrobrás trong 180 ngày qua, bởi giá trị ngoại lai này có thể tác động tới mức giảm trung bình của cổ phiếu. Khi phân tích biểu đồ dưới đây, không khó để xác định những giá trị không theo một xu hướng chung với những giá trị còn lại.

Dữ liệu của ví dụ trên có thể được gọi là ngoại lai, tuy nhiên, bạn không nhất thiết phải loại bỏ dữ liệu này. “Đường cong” trong biểu đồ trên được biểu thị khá tương đồng với một đường thẳng cắt qua các điểm. Mặc dù ở khá xa với các điểm dữ liệu khác, điểm dữ liệu này vẫn không hoàn toàn nằm ngoài đường cong biểu đồ. 

Một mô hình dự đoán có thể dễ dàng suy ra với độ chính xác cao rằng chỉ số thị trường chứng khoán giảm 9% sẽ tương ứng với việc giá cổ phiếu của Petrobras giảm 15%. Một trường hợp khác, vẫn với dữ liệu từ thị trường chứng khoán Brazil, cổ phiếu của công ty Magazine Luiza tăng giá 30,8% trong một ngày mà chỉ số thị trường chứng khoán chỉ tăng 0,7%. 

Đây là một trường hợp ngoại lệ có thể gây hại không chỉ cho các tính toán thống kê mô tả, chẳng hạn như giá trị trung bình và trung vị, mà còn ảnh hưởng đến khả năng dự đoán của các mô hình dự đoán.

Sử dụng các phương pháp thống kê

Tính giá trị trung bình (mean) và độ lệch chuẩn (standard deviation)

Một cách phức tạp hơn nhưng khá chính xác để tìm ra các ngoại lệ trong phân tích dữ liệu là tìm phân phối thống kê gần đúng nhất với phân phối dữ liệu và sử dụng các phương pháp thống kê để phát hiện ra các giá trị ngoại lai. 

Ví dụ, biểu đồ histogram dưới đây biểu thị tần suất của các giá trị “km/l”.

Tập dữ liệu được sử dụng cho case study này là được công khai và đã được các Data Analyst khai thác rất nhiều trong các thử nghiệm thống kê. Tập dữ liệu bao gồm dữ liệu từ “tạp chí Motor Trend US” năm 1974 và một số khía cạnh về hiệu suất hoạt động của 32 mẫu xe. 

Histogram là một trong những dạng biểu đồ phổ biến thường được sử dụng để phân tích hành vi của dữ liệu. Trong biểu đồ bên dưới, đường màu xanh lam biểu thị phân phối chuẩn (Normal distribution – Gaussian distribution) sẽ dựa trên giá trị trung bình (mean), độ lệch chuẩn (standard deviation) và cỡ mẫu (sample size) và tương phản với biểu đồ dạng thanh.

Các đường thẳng đứng màu đỏ đại diện cho các đơn vị độ lệch chuẩn (standard deviation). Có thể thấy rằng những chiếc xe có hiệu suất vượt trội trong mùa có thể chạy trung bình hơn 14 km/lít, tương ứng với hơn 2 độ lệch chuẩn so với mức trung bình.

Theo phân phối chuẩn, dữ liệu nhỏ hơn hai lần độ lệch chuẩn tương ứng với 95% của tất cả dữ liệu; trong khi đó, các giá trị ngoại lai trong phân tích này chiếm 5%.

Sử dụng Z-Score

Z-scores có thể định lượng mức độ bất thường của một điểm dữ liệu khi tập dữ liệu của bạn đã tuân theo phân phối chuẩn. Z-scores là số độ lệch chuẩn (standard deviations) trên và dưới giá trị trung bình (mean) mà mỗi giá trị giảm xuống.

Ví dụ: Z-scores là 2 cho biết một điểm dữ liệu có hai độ lệch chuẩn trên mức trung bình trong khi điểm Z là -2 biểu thị rằng đó là hai độ lệch chuẩn dưới mức trung bình. Điểm Z bằng 0 biểu thị một giá trị bằng với giá trị trung bình

Để tính Z-scores cho một điểm dữ liệu, bạn chỉ cần thực hiện phép tính trừ, lấy giá trị tại điểm dữ liệu đó trừ đi giá trị trung bình và chia cho độ lệch chuẩn. Về mặt toán học, công thức cho quá trình đó là: Z = (X – μ)/σ .

Z-scores của một điểm dữ liệu càng xa 0 thì càng bất thường. Giá trị giới hạn tiêu chuẩn để tìm các giá trị ngoại lai là điểm Z từ +/-3 trở lên. Biểu đồ phân phối xác suất dưới đây hiển thị phân phối Z-scores trong một phân phối chuẩn. Các giá trị có Z-scores vượt quá +/- 3 ở mức rất ít và bạn sẽ gần như nhìn thấy rằng đường cong phân phối áp sát với trục X. 

Sử dụng Z-Score

Trong một population tuân theo phân phối chuẩn, Z-score nếu lớn hơn +/- 3 có xác suất là 0,0027 (2 * 0,00135), tức là khoảng 1 trên 370 điểm dữ liệu. Tuy nhiên, nếu dữ liệu của bạn không tuân theo phân phối bình thường, phương pháp này có thể không chính xác.

Lưu ý rằng Z-scores có thể gây nhầm lẫn với các tập dữ liệu có kích thước nhỏ vì Z-scores tối đa được giới hạn ở (n−1)/√ n.*

Z-score của chúng tôi ~3,6 gần với giá trị tối đa đối với cỡ mẫu là 15. Cỡ mẫu từ 10 giá trị trở xuống không thể có Z-score vượt quá giá trị ngưỡng +/-3.

Bên cạnh đó, hãy lưu ý rằng các giá trị ngoại lai có thể làm giảm Z-score vì các giá trị này làm tăng giá trị trung bình (mean) và độ lệch chuẩn (standard deviation). Để ý rằng tất cả các Z-scores đều có giá trị âm, ngoại trừ Z-scores của các dữ liệu ngoại lai. Vì vậy, Z-scores sẽ thay đổi trong hai trường hợp bao gồm và không bao gồm các trường hợp ngoại lai, mà thông thường nếu tập dữ liệu của bạn bao gồm các dữ liệu ngoại lai thì Z-scores sẽ gần với 0 hơn.

Sử dụng Interquartile Range để xác định giới hạn của các giá trị ngoại lai

Bạn có thể sử dụng interquartile range (IQR) và các giá trị phần tư (Q1, Q3) để xác định giới hạn thấp nhất để một giá trị được coi là dữ liệu ngoại lai. Trong đó, các giá trị nằm trong phạm vi Q1 và Q3 chắc chắn không được coi là giá trị ngoại lai.

Đọc thêm: Percentile là gì? Percentile được ứng dụng và tính toán như nào?

Ví dụ, tập dữ liệu dưới đây có giá trị Q1 là 1.714 và giá trị Q3 là 1.936. Giá trị IQR sẽ được tính bằng 1.936 – 1.714 = 0.222.

Để tính các giới hạn của giá trị ngoại lai, bạn cần thực hiện các bước:

  1. Tính giá trị IQR (median) và nhân nó với 1,5 và 3. Ví dụ, IQR của tập dữ liệu bằng 0,222. Như vậy, 0,222 * 1,5 = 0,333 và 0,222 * 3 = 0,666. 
  2. Tính giới hạn sàn và giới hạn trần bên dưới. Lấy giá trị Q1 và trừ hai giá trị từ bước 1. Ví dụ, Q1 là 1,714. Như vậy giới hạn trần bên dưới = 1,714 – 0,333 = 1,381 và giới hạn sàn bên dưới = 1,714 – 0,666 = 1,048.
  3. Tính giới hạn sàn và giới hạn trần bên trên. Lấy giá trị Q3 và cộng hai giá trị từ bước 1. Ví dụ, Q3 là 1,936. Như vậy giới hạn trần bên trên = 1,936 + 0,333 = 2,269 và giới hạn sàn bên trên = 1,936 + 0,666 = 2,602.

Như vậy, các giá trị giới hạn lần lượt là 1,048, 1,381, 2,269 và 2,602. Phần lớn dữ liệu sẽ dao động trong khoảng giới hạn trần phía trên và dưới là 1,381 và 2,269. Điểm dữ liệu lớn hơn 2,269 được coi là dữ liệu ngoại lai.

Phương pháp này thường được sử dụng vì sử dụng percentile mà không phụ thuộc vào một phân phối cụ thể. Phương pháp thống kê này cũng được coi là giải thích chi tiết cho vì sao boxplot có thể giúp xác định dữ liệu ngoại lai. 

Sử dụng Hypothesis Tests

Bạn có thể sử dụng giả thuyết để tìm ra các dữ liệu ngoại lai. Ví dụ dưới đây sẽ minh họa phương pháp đặt giả thuyết Grubbs. Phương pháp này sẽ kiểm tra hai giả thuyết: 

  • Null: Tất cả các giá trị trong mẫu được lấy ra từ một population duy nhất tuân theo cùng một phân phối chuẩn.
  • Alternative: Một giá trị trong mẫu không được lấy ra từ cùng một population có phân phối chuẩn như các giá trị khác.

Nếu p-value thấp hơn mức ý nghĩa (significance level), bạn có thể phủ nhận giả thuyết null và kết luận rằng một trong các giá trị là dữ liệu ngoại lai.

Đọc thêm: 10 khái niệm thống kê cơ bản cần biết khi làm việc với dữ liệu

Kiểm định giả thuyết của Grubbs có p-value là 0,000. Giá trị này thấp hơn mức ý nghĩa (significance level), có thể kết luận rằng tập dữ liệu đang chứa một giá trị ngoại lai. Output chỉ ra rằng đó là giá trị đã tìm thấy trước đây. 

Nếu bạn sử dụng kiểm định giả thuyết của Grubbs và tìm thấy một giá trị ngoại lai, đừng loại bỏ giá trị đó và tiếp tục thực hiện lại phân tích. Quá trình đó có thể khiến bạn loại bỏ các giá trị không phải là dữ liệu ngoại lai.

Khi thực hiện kiểm định dữ liệu ngoại lai, bạn cần chọn quy trình dựa trên số lượng giá trị ngoại lai hoặc chỉ định số lượng giá trị ngoại lai cho quá trình kiểm định. Phương pháp kiểm định của Grubbs chỉ kiểm tra một giá trị ngoại lai. Trong khi đó, các phương pháp khác như kiểm định Tietjen-Moore sẽ yêu cầu bạn chỉ định một số lượng giá trị ngoại lai cụ thể. 

Tuy nhiên, nghe thật khó và mông lung bởi sau cùng thì bạn đang thực hiện kiểm định để xác định giá trị ngoại lai mà? Masking và Swamping là hai vấn đề có thể xảy ra khi bạn chỉ định số lượng dữ liệu ngoại lai không chính xác trong tập dữ liệu. 

Trong đó Masking xảy ra khi bạn chỉ định số lượng dữ liệu ngoại lai quá ít. Các giá trị ngoại lai không được phát hiện có thể sẽ ảnh hưởng tới kết quả kiểm định. Ví dụ: nếu bạn chỉ định rằng chỉ có một giá trị ngoại lai trong khi thực tế là có hai giá trị, kiểm định có thể bỏ sót cả hai giá trị ngoại lai này.

Ngược lại, Swamping xảy ra khi bạn chỉ định số lượng dữ liệu ngoại lai quá nhiều. Trong trường hợp này, kết quả kiểm định có thể xác định nhiều hơn số lượng dữ liệu ngoại lai chính xác. Ví dụ: nếu bạn chỉ định có hai giá trị ngoại lai trong khi thực tế chỉ có một giá trị, kiểm định có thể xác định rằng có hai giá trị ngoại lai.

Dù vậy, sẽ có những trường hợp bạn có thể dựa vào hiểu biết về lĩnh vực, công ty, vấn đề và quy trình thu thập dữ liệu để xác định giá trị ngoại lai một cách nhanh chóng. Giả sử bạn đang làm việc với một tập dữ liệu chứa các mức lương của nhân viên trong một công ty và nhận thấy rằng một người đang có mức lương cao hơn đáng kể so với mức lương của những nhân viên còn lại. Tuy nhiên, sau khi xem xét kỹ hơn, bạn nhận ra rằng nhân viên này là CEO của công ty. Trong trường hợp này, hiểu biết về chuyên môn sẽ giúp bạn hiểu rằng mức lương của CEO sẽ cao hơn so với các mức lương của nhân viên, vì vậy dữ liệu này vẫn được tính là hợp lệ.

Tạm kết

Loại bỏ những điểm dữ liệu ngoại lai là một phần quan trọng trong quá trình làm sạch dữ liệu, để đảm bảo những phân tích đầu ra chính xác và đưa ra những đề xuất, quyết định kinh doanh có thể áp dụng. Nếu bạn muốn nâng cao tư duy làm việc, xử lý, phân tích dữ liệu để tìm ra các insight ẩn, phát hiện vấn đề, tránh đưa ra các quyết định cảm tính, hãy tham khảo khóa học Data Analysis của Tomorrow Marketers nhé.

khóa học Data Analysis
Tagged: