ELT là gì? Tại sao xu hướng này dần được ưa chuộng?

marketing foundation

Tomorrow MarketersELT là viết tắt của “extract, load & transform” (trích xuất, tải & chuyển đổi) – những quy trình mà một data pipeline (đường ống dữ liệu) sử dụng để sao chép dữ liệu từ hệ thống nguồn sang một hệ thống khác, ví dụ như kho dữ liệu đám mây.

  • Trích xuất: Sao chép dữ liệu từ hệ thống nguồn.
  • Tải: Ở bước thứ hai này, pipeline sẽ sao chép dữ liệu từ nguồn sang một hệ thống khác, có thể là một kho dữ liệu (data warehouse) hoặc hồ dữ liệu (data lake).
  • Chuyển đổi: Khi dữ liệu đã nằm trong hệ thống mới, doanh nghiệp có thể thực hiện bất cứ chuyển đổi nào cần thiết. Thông thường, các doanh nghiệp sẽ chuyển đổi dữ liệu thô theo nhiều cách khác nhau với những công cụ & quy trình tương ứng. 

Trước khi đi sâu vào tìm hiểu sự dịch chuyển của doanh nghiệp sang quy trình ELT, hãy cùng đi qua một số đặc điểm của quy trình ETL truyền thống nhé:

Quy trình ETL (Extract, Transform, Load)

Trong quy trình phân tích của bất kỳ doanh nghiệp nào, bước chuyên sâu nhất thường là chuẩn bị dữ liệu: bao gồm việc tổng hợp, làm sạch và tạo các tập dữ liệu để phục vụ cho hoạt động kinh doanh và quá trình ra quyết định. Quy trình này thường được biết đến với cái tên ETL (Extract, Transform, Load): trích xuất, chuyển đổi và tải dữ liệu. 

Trong quá trình này, một công cụ ETL sẽ trích xuất dữ liệu từ các hệ thống nguồn khác nhau, chuyển đổi dữ liệu bằng cách áp dụng các phép tính, ghép nối,… và cuối cùng là tải dữ liệu vào kho dữ liệu.

Với hướng tiếp cận này, có 3 hoạt động chính:

  1. Bạn trích xuất dữ liệu từ các nguồn khác nhau (viết truy vấn trên cơ sở dữ liệu SQL hoặc gửi yêu cầu trích xuất dữ liệu đến một ứng dụng thông qua API của nó)
  2. Những dữ liệu này sau đó sẽ được chuyển đổi trong bộ nhớ của công cụ ETL
  3. Dữ liệu đã chuyển đổi sẽ được tải vào kho lưu trữ/kho dữ liệu cuối cùng

Điểm mấu chốt cần lưu ý là dữ liệu thô được chuyển đổi bên ngoài kho dữ liệu, thường có sự hỗ trợ của một dàn máy chủ (staging server) chuyên dụng; và chỉ những dữ liệu đã chuyển đổi mới được tải vào kho dữ liệu.

Quy trình ELT (Extract, Load, Transform)

ELT là một hướng tiếp cận khác. Thay vì chuyển đổi dữ liệu trước khi chúng được tải vào cơ sở dữ liệu, ELT thực hiện quá trình chuyển đổi bên trong kho dữ liệu. Dữ liệu của bạn sẽ được tải vào kho dữ liệu, sau đó mới đến bước chuyển đổi.

3 hoạt động chính trong quá trình ELT:

  1. Bạn trích xuất dữ liệu từ các nguồn
  2. Thay vì chuyển đổi trong bộ nhớ, bạn sẽ tải dữ liệu thô trực tiếp vào kho dữ liệu
  3. Cuối cùng, bạn thực hiện bất cứ chuyển đổi cần thiết nào trong chính kho dữ liệu

Điểm quan trọng cần lưu ý ở đây là dữ liệu thô được chuyển đổi bên trong khu dữ liệu mà không cần đến dàn máy chủ; và kho dữ liệu của bạn bây giờ chứa cả dữ liệu thô và dữ liệu đã được chuyển đổi.

Đọc thêm: Data Analysis là gì? Phương pháp và quy trình phân tích

Sự chuyển đổi từ ETL sang ELT

Trước đây, việc xây dựng một kho dữ liệu là rất tốn kém, cả về phần cứng và phần mềm. Chi phí server, chi phí triển khai và giấy phép phần mềm cho một dự án lưu trữ dữ liệu vào khoảng 20-30 năm trước có thể lên đến hàng triệu USD và tốn nhiều tháng trời để thực hiện.

  • Vì kho dữ liệu đắt đỏ như vậy nên để tiết kiệm chi phí, sẽ chỉ những dữ liệu sạch, đã được chuyển đổi và tổng hợp kỹ lưỡng mới được tải vào kho dữ liệu
  • Trước đây, mọi người vẫn áp dụng mô hình thác nước (waterfall development model), do đó việc dành thời gian lên kế hoạch trước sau đó mới thực hiện các chuyển đổi là điều phổ biến. 

Ở bối cảnh này, mô hình ETL là hoàn toàn hợp lý: dữ liệu thô đã được chuyển đổi cẩn thận trong máy chủ dàn (hoặc một công cụ ETL) trước khi được tải vào kho dữ liệu. Khối lượng dữ liệu mà các công cụ khi ấy có thể xử lý là tương đối nhỏ, do đó máy chủ không gặp khó khăn trong quản lý.

Tuy nhiên, ở thời điểm hiện tại, ETL lại có một số hạn chế như sau:

  • Mọi quy trình chuyển đổi dữ liệu đều cần đến sự tham gia của đội ngũ IT hoặc kỹ sư dữ liệu để có thể mã hoá các chuyển đổi mới. Các công cụ ETL được sử dụng trong mô hình cũ gần như không tiếp cận được với các chuyên gia phân tích dữ liệu – những người thường có nền tảng về SQL. Do đó, các chuyên gia phân tích dữ liệu phải phụ thuộc vào kỹ sư dữ liệu để có thể truy cập vào những dữ liệu đã chuyển đổi, và sẽ phải đợi thêm nhiều ngày trước khi họ có thể thực hiện các báo cáo mới.
  • Khối lượng dữ liệu càng tăng, cách tiếp cận của ETL lại lộ ra càng nhiều vấn đề. Cụ thể, dàn máy chủ – cỗ máy chịu trách nhiệm sắp xếp toàn bộ quá trình tải và chuyển đổi dữ liệu – sẽ trở thành “nút thắt cổ chai”, ảnh hưởng tới toàn bộ phần còn lại của quy trình

Điều gì đã xảy ra? Dưới đây là một vài yếu tố đã xuất hiện trong những thập niên 2010s và từ đó hình thành lên một hướng tiếp cận mới:

  • Yếu tố đầu tiên chính là kho dữ liệu đám mây ngày càng trở nên phổ biến. Các kho dữ liệu hiện đại ngày nay có thể lưu trữ và xử lý một lượng dữ liệu rất lớn với chi phí rất thấp.
  • Chúng ta cũng chứng kiến ​​sự bùng nổ về số lượng và sự đa dạng của những dữ liệu được thu thập. Có thể bạn đã nghe đến cụm từ “cuộc cách mạng dữ liệu lớn”. Nó thúc đẩy sự phát triển của các công cụ và cách tiếp cận mới khi làm việc với dữ liệu.
  • Cuối cùng, đó là ​​sự bùng nổ của các phương pháp phát triển phần mềm tinh gọn và linh hoạt (lean & agile). Xu hướng này cho thấy rằng mọi người đang trông đợi nhiều hơn từ bộ phận dữ liệu, giống như cách họ đã quen với tốc độ thực thi nhanh chóng của đội ngũ phát triển phần mềm.

Mọi người nhận ra rằng với chi phí lưu trữ và xử lý dữ liệu thấp như hiện nay, họ hoàn toàn có thể đổ tất cả dữ liệu vào một chỗ, trước khi thực hiện bất cứ chuyển đổi nào.

Và đó là lý do ELT ngày càng trở nên phổ biến hơn. Đối lập với ETL, ELT sở hữu những lợi thế sau:

  • Nó loại bỏ tắc nghẽn hiệu suất tại dàn máy chủ/công cụ đường ống ETL. Điều này rất quan trọng vì các kho dữ liệu đã tăng sức mạnh xử lý ở cấp độ vượt xa công cụ đường ống ETL tiên tiến nhất.
  • ELT không yêu cầu việc lập kế hoạch về dữ liệu nào cần chuyển đổi trước. Các chuyên gia dữ liệu dần trở nên linh hoạt hơn trong cách tiếp cận của mình thay vì phải lên kế hoạch chi tiết như ở hướng tiếp cận ETL
  • Với các công cụ chuyển đổi và mô hình hóa phù hợp, ELT không yêu cầu các kỹ sư dữ liệu luôn phải ở chế động “sẵn sàng có mặt” để đáp ứng những yêu cầu từ nhóm phân tích. Việc này khiến các data analyst tăng sự chủ động và tốc độ thực thi.

Đọc thêm: Data Modeling là gì? Những lợi ích của Data Modelling với doanh nghiệp

Dưới đây là bảng tổng hợp những khác biệt chính giữa ETL & ELT:

ETLELT


Lịch sử
– Kho dữ liệu rất tốn kém (hàng triệu USD), khối lượng dữ liệu ở mức quản lý được
– Mô hình thác nước (waterfall development) vẫn đang thông dụng 
– Kho dữ liệu đám mây làm giảm đáng kể chi phí lưu trữ & xử lý dữ liệu (chỉ còn hàng trăm/hàng nghìn USD)
 – Khối lượng dữ liệu bùng nổ- Các phương pháp tinh gọn & linh hoạt xuất hiện 



Quy trình
Dữ liệu thô được chuyển đổi ở dàn máy chủ. Chỉ những dữ liệu đã chuyển đổi mới được tải vào kho dữ liệu. Các quá trình chuyển đổi phụ thuộc vào công suất xử lý của máy chủ. Dữ liệu thô được tải vào kho dữ liệu. Việc chuyển đổi dữ liệu được thực hiện bên trong kho dữ liệu. Kết quả cũng được lưu trữ trong kho dữ liệu. Các quá trình chuyển đổi phụ thuộc vào công suất xử lý của kho dữ liệu. 


Ưu điểm/Hạn chế
Kho dữ liệu chỉ chứa dữ liệu đã được làm sạch và chuyển đổi, từ đó doanh nghiệp có thể tối ưu hoá công dụng của kho dữ liệu. Tuy nhiên không hiệu quả khi khối lượng dữ liệu lớn. Thường mất hàng tuần, hàng tháng để thay đổi quy trình do áp dụng mô hình thác nước. Tất cả dữ liệu được lưu trữ ở kho dữ liệu đám mây, từ đó rất dễ để thay đổi kho dữ liệu mới. Không cần đến các dàn máy chủ bổ trợ. Vẫn hoạt động tốt khi khối lượng dữ liệu tăng lên. Chỉ mất vài ngày để chuyển đổi /thiết lập dữ liệu mới.

Tạm kết

Quy trình nào cũng hướng tới mục đích cuối cùng là tận dụng tốt nguồn dữ liệu dồi dào để tạo lợi thế cạnh tranh cho doanh nghiệp. Dữ liệu khi được khai thác triệt để sẽ giúp bạn dễ dàng nắm bắt tình hình hiện tại, đưa ra dự báo cho tương lai và luôn trong tâm thế đi trước một bước so với sự biến động của thị trường. Nếu bạn muốn tìm hiểu sâu hơn về phương pháp xây dựng hệ thống dữ liệu, cũng như củng cố tư duy khai thác dữ liệu trong vận hành doanh nghiệp, hãy tham khảo khoá học Data System của Tomorrow Marketers!

Bài viết bởi Holistics và được biên dịch bởi Tomorrow Marketers, vui lòng không sao chép dưới mọi hình thức.

Tagged: