Những lỗi nhỏ nếu không để ý có thể dẫn tới sai sót lớn khi phân tích dữ liệu

marketing foundation

Tomorrow Marketers – Trung bình cứ 15 bảng trong data warehouse (nhà kho dữ liệu) sẽ xuất hiện một lỗi dữ liệu. Lỗi dữ liệu có thể kể đến như dữ liệu trùng lặp, dữ liệu mơ hồ (sai format, sai chính tả, headings các cột gây hiểu lầm), dữ liệu không đồng nhất, dữ liệu bị ẩn do data silo,… 

Thực ra, hầu như data team nào cũng biết rằng họ đang gặp phải rắc rối liên quan tới chất lượng dữ liệu, nhưng họ thường xem nhẹ tần suất xuất hiện của những lỗi này, không để tâm xem chúng xảy ra theo tháng, theo tuần, hay thậm chí là theo ngày.

Tại sao đã thực hiện rất nhiều testing, anomaly detection, áp dụng nhiều phương pháp xử lý và làm sạch, mà vấn đề về chất lượng dữ liệu vẫn xảy ra thường xuyên như vậy? Bản thân công nghệ không thể tự nó giải quyết tất cả?

Bài viết dưới đây sẽ liệt kê 5 nguyên nhân khiến chất lượng dữ liệu luôn là vấn đề nhức nhối của nhiều doanh nghiệp.

Đọc thêm: Chất lượng dữ liệu: Không phải data nào cũng là vàng, Marketers phải “đào” sao cho đúng?

1. Dữ liệu sai lệch cho chất lượng đầu vào (Data drift)

Data drift là khi dữ liệu thay đổi từ từ, nhưng đến từ vấn đề chất lượng dữ liệu, chứ không phải đang có một xu hướng nào đó gây nên sự thay đổi này. Mối đe dọa ‘ngầm’ này gây ra những rắc rối không nhỏ với những ai đang chạy báo cáo chất lượng dữ liệu hay chạy anomaly test, vì những công cụ này chỉ có thể phát hiện ra sự chuyển dịch lớn bất thường của dữ liệu, những thay đổi nhỏ và từ từ thì không thể nắm bắt được.

Làm sao bạn có thể mong đợi một data analyst phát hiện ra vấn đề về chất lượng dữ liệu khi tất cả những gì họ thấy là một con số chỉ nhỉnh hơn hoặc thấp hơn một chút qua mỗi báo cáo? Sự thay đổi quá nhỏ đó còn chẳng đáng để data analyst cảm thấy nghi ngờ và tiến hành phân tích sâu hơn.

2. Data warehouse có thể trở thành bãi phế liệu nhanh chóng khi toàn bộ data team có quyền truy cập nhưng lại chẳng có bất kỳ sự quản lý quy chuẩn nào

Data warehouse (nhà kho dữ liệu), data lake là một phần quan trọng của hệ thống dữ liệu. Không thể phủ nhận vai trò ‘single source of truth’ (nguồn thông tin thống nhất) của 2 công cụ này, nhưng chúng cũng có mặt trái, đó là “bi kịch của việc dùng chung”. 

Data warehouse có thể trở thành bãi phế liệu nhanh chóng khi toàn bộ data team có quyền truy cập nhưng lại chẳng có bất kỳ sự quản lý quy chuẩn nào, cũng không ai thực hiện data hygiene (bảo trì dữ liệu) một cách chỉn chu. Về mặt giấy tờ thì có vẻ rất dễ dàng phân định xem ai là chủ sở hữu của nhóm dữ liệu này, nhưng thực tế phức tạp và khó theo dõi hơn nhiều.

Chẳng ai trong lĩnh vực kỹ thuật phần mềm đặt tên microservice theo tên mình cả, nhưng lại họ lại rất hay tự tạo và sở hữu lược đồ schema riêng trong data warehouse. Việc sở hữu riêng như thế này, kết hợp với sự rời đi của nhân viên, có người đi và có người mới đến, đã tạo ra thách thức rất lớn cho doanh nghiệp. Nếu như không theo dõi sát sao được nguồn gốc, hay cũng không có bất kỳ quy trình nào để hiểu xem các datasets tác động tới dashboards và tài sản dữ liệu khác như thế nào, doanh nghiệp sẽ đánh mất tầm nhìn và gặp phải nhiều lỗi về chất lượng dữ liệu.

Đọc thêm: Star schema (Giản đồ hình sao) là gì?

Gắn thẻ các bảng được bao gồm trong data SLAs (*) – chính là giải pháp tuyệt vời để tránh gặp phải tình trạng: “Tại sao lại sử dụng cái bảng đó?!”.

(*) SLA (Service level Agreement) là một phần của quy trình data certification, nhằm đạt được thỏa thuận giữa các bên về việc xử lý data.

3. KPIs và SLAs trong quản lý chất lượng dữ liệu chưa chặt chẽ

Trớ trêu thay, một trong những lý do tại sao data team chưa nắm bắt tường tận tất cả những vấn đề về chất lượng dữ liệu, là do… thiếu dữ liệu.

Nhiều data team cũng nhận ra điều này và bắt đầu thiết lập data SLAs hay các bản thoả thuận về cấp độ dịch vụ giữa data team và doanh nghiệp. Các bản thoả thuận này sẽ làm rõ mức độ hiệu suất mà doanh nghiệp có thể mong đợi từ hệ thống dữ liệu. Rốt cuộc, bạn chỉ có thể cải thiện những gì bạn đo lường được.

Senior Data Scientist, Brandon Beidel nói rằng: “Việc chúng ta cần làm là đo lường hiệu suất. Hệ thống đang hoạt động như thế nào? Nếu có hàng tá lỗi xảy ra, đó có thể là do chúng ta xây dựng hệ thống chưa hiệu quả. Ngoài ra, việc đo lường này cũng sẽ chỉ ra chúng ta nên tối ưu thời gian và nguồn lực vào đâu. Chẳng hạn, chúng ta đang có 3/4 data warehouse chạy trơn tru, vậy thì hãy cùng nhìn vào cái còn lại không vận hành hiệu quả được như vậy. Với data SLAs, tôi tạo ra các dashboard theo hoạt động doanh nghiệp và theo warehouse để nắm bắt được tỉ lệ SLA đạt được hàng ngày.”

4. Loại bỏ sự kiểm soát của con người

Trong một thời gian dài, Data analysts và các bên kinh doanh liên quan đã luôn là người đảm bảo về mức độ tin cậy của dữ liệu trong tổ chức. Nếu dữ liệu không chất lượng bị trôi dạt vào dashboard, một ai đó sẽ nhận ra ngay sự ‘nực cười’ và có gì đó ‘sai sai’ này. 

Hệ thống dữ liệu hiện đại đã ngày càng tự động hoá và loại bỏ con người trong quá trình thu thập và xử lý dữ liệu. Chẳng hạn, nhiều tổ chức bắt đầu triển khai đường ống ELT ngược, đẩy data từ nhà kho thẳng tới hệ thống vận hành (như Marketo hay Salesforce). Quy trình này giúp data được cập nhật kịp thời và có giá trị hành động hơn, nhưng nó cũng gây khó khăn cho data team trong việc phát hiện lỗi chất lượng dữ liệu. 

Quy trình tự động sẽ mang lại nhiều ích lợi hơn nếu data cũng được theo dõi và quản lý tự động.

5. Quá nhiều lỗi dữ liệu khác nhau khiến việc test lỗi thủ công khó bao phủ được toàn bộ

Một trong những lời phàn nàn nhiều nhất về chất lượng dữ liệu là “Tôi không thể viết test cho tất cả chúng!”. Và đó là sự thật. Hệ sinh thái dữ liệu mở rộng quá nhanh và có quá nhiều ẩn số, viết test thủ công không thể bao phủ được toàn bộ chúng.

Data team thường sẽ viết test cho những thứ bị gặp lỗi trong quá khứ. Điều này có nghĩa, team sẽ cần mỗi thứ bị lỗi ít nhất một lần và không có sự thêm vào của bất cứ dữ liệu mới nào trong thời gian can thiệp.

Quy trình thủ công như thế này không thể mở rộng quy mô và kết quả là các vấn đề về chất lượng dữ liệu vẫn bị bỏ sót, tính toàn vẹn của dữ liệu cũng bị ảnh hưởng.

Tạm kết

Dữ liệu kém chất lượng có thể dẫn tới các vấn đề về đánh giá hiệu suất không đúng, cải thiện trải nghiệm khách hàng chưa đúng hướng, target sai đối tượng,… gây lãng phí ngân sách. Đặt một “chuẩn” cho dữ liệu, quy trình thu thập dữ liệu là điều cần thiết và nên làm ngay từ khi brainstorm ý tưởng cho các dự án. Dữ liệu sẽ không còn là nỗi ám ảnh nếu bạn biết thu thập đúng cách, đánh giá ngay từ đầu nguồn dữ liệu để có thể tiết kiệm thời gian và chi phí của doanh nghiệp. 

Để hiểu thêm về cách quản lý dữ liệu doanh nghiệp, cũng như trang bị tư duy xây dựng hệ thống dữ liệu nội bộ và tối ưu hoạt động kinh doanh, tham gia khóa học Data System của Tomorrow Marketers!

Để tìm hiểu sâu hơn về cách xây dựng hệ thống dữ liệu và biết cách áp dụng cho chính doanh nghiệp của mình, hãy tham khảo khóa học Data System của Tomorrow Marketers. Khóa học Data System sẽ giúp bạn hiểu rõ:

  • Cấu trúc của hệ thống dữ liệu nội bộ: Hiểu rõ các thành phần của một hệ thống dữ liệu hoàn chỉnh.
  • Tư duy xây dựng quy trình và số hoá quy trình kinh doanh nhằm thu thập được dữ liệu qua thời gian
  • Tư duy xây dựng đường ống dữ liệu và nhà kho dữ liệu, giúp doanh nghiệp chuẩn hoá dữ liệu từ sớm.
  • Tư duy khai thác dữ liệu để xây dựng các dashboard & báo cáo quản trị, cung cấp bức tranh toàn cảnh của kinh doanh và giám sát hoạt động.

Tham gia khoá học để khai thác hiệu quả mọi tiềm năng của dữ liệu ngay hôm nay!