ETL và ELT khác nhau ở điểm nào?

Trích xuất, chuyển đổi và tải (ETL) cũng như trích xuất, tải và chuyển đổi (ELT) là hai phương pháp xử lý dữ liệu để phân tích. Các tổ chức lớn có hàng trăm (hoặc thậm chí hàng ngàn) nguồn dữ liệu từ mọi khía cạnh trong hoạt động của họ – ví dụ như các ứng dụng, cảm biến, cơ sở hạ tầng CNTT và các đối tác bên thứ ba. Họ phải lọc, sắp xếp và làm sạch khối lượng dữ liệu lớn này để biến chúng trở lên hữu ích cho phân tích và nghiệp vụ thông minh. Phương pháp ETL sử dụng một tập hợp các quy tắc kinh doanh để xử lý dữ liệu từ nhiều nguồn trước khi tích hợp tập trung. Phương pháp ELT tải dữ liệu ở dạng nguyên trạng và chuyển đổi dữ liệu ở giai đoạn sau, phụ thuộc vào trường hợp sử dụng và yêu cầu phân tích. Quy trình ETL yêu cầu xác định nhiều hơn lúc đầu. Cần phải tiến hành phân tích ngay từ đầu để xác định các loại, cấu trúc và mối quan hệ của dữ liệu đích. Các nhà khoa học dữ liệu chủ yếu sử dụng ETL để tải cơ sở dữ liệu cũ vào kho dữ liệu. Còn ngày nay, ELT đã trở thành tiêu chuẩn.

Tìm hiểu về ETL »

Những điểm tương đồng giữa ETL và ELT là gì?

Cả trích xuất, chuyển đổi và tải (ETL) cũng như trích xuất, tải và chuyển đổi (ELT) đều là trình tự của quá trình chuẩn bị dữ liệu để phân tích thêm. Chúng thu thập, xử lý và tải dữ liệu để phân tích qua ba bước. 

Trích xuất

Trích xuất là bước đầu tiên trong cả ETL và ELT. Bước này thu thập dữ liệu thô từ các nguồn khác nhau. Những nguồn này có thể là cơ sở dữ liệu, tệp, ứng dụng phần mềm dưới dạng dịch vụ (SaaS), cảm biến Internet vạn vật (IoT) hoặc các sự kiện ứng dụng. Bạn có thể thu thập dữ liệu bán cấu trúc, có cấu trúc hoặc phi cấu trúc ở giai đoạn này.

Chuyển đổi

Trong quy trình ETL, chuyển đổi là bước thứ hai, trong khi đây là bước thứ ba ở quy trình ELT. Bước này tập trung vào việc thay đổi dữ liệu thô từ cấu trúc ban đầu thành một định dạng đáp ứng các yêu cầu của hệ thống mục tiêu mà bạn dự định lưu trữ dữ liệu để phân tích. Dưới đây là một số ví dụ về chuyển đổi:

  • Thay đổi loại hoặc định dạng dữ liệu
  • Loại bỏ dữ liệu không nhất quán hoặc không chính xác.
  • Loại bỏ trùng lặp dữ liệu.

Bạn áp dụng các quy tắc và hàm để làm sạch và chuẩn bị dữ liệu cho phân tích trong hệ thống mục tiêu.

Tải

Ở giai đoạn này, bạn lưu trữ dữ liệu vào cơ sở dữ liệu mục tiêu. Bước cuối cùng của các quy trình ETL là tải dữ liệu, qua đó các công cụ báo cáo có thể sử dụng trực tiếp dữ liệu đó để tạo ra các báo cáo và thông tin chuyên sâu hữu ích. Tuy nhiên, ở ELT, bạn vẫn cần chuyển đổi dữ liệu đã trích xuất sau khi tải dữ liệu.

Các quy trình ELT và ETL khác nhau như thế nào?

Tiếp theo, chúng tôi phác thảo các quy trình trích xuất, chuyển đổi và tải (ETL) và trích xuất, tải và chuyển đổi (ELT). Bạn cũng có thể đọc một số thông tin nền tảng lịch sử.

Quy trình ETL

ETL bao gồm ba bước:

  1. Bạn trích xuất dữ liệu thô từ nhiều nguồn khác nhau
  2. Bạn sử dụng một máy chủ xử lý thứ cấp để chuyển đổi dữ liệu
  3. Bạn tải dữ liệu đó vào cơ sở dữ liệu mục tiêu

Giai đoạn chuyển đổi giúp đảm bảo cơ sở dữ liệu mục tiêu tuân thủ các yêu cầu về cấu trúc. Bạn chỉ di chuyển dữ liệu khi dữ liệu đã được chuyển đổi và sẵn sàng.

 

Quy trình ELT

Đây là ba bước của ELT:

  1. Bạn trích xuất dữ liệu thô từ nhiều nguồn khác nhau
  2. Bạn tải dữ liệu ở trạng thái tự nhiên vào một kho dữ liệu hoặc hồ dữ liệu
  3. Bạn chuyển đổi dữ liệu nếu cần thiết trong khi ở hệ thống mục tiêu

Với ELT, tất cả các quá trình làm sạch, chuyển đổi và bổ sung dữ liệu diễn ra trong kho dữ liệu. Bạn có thể tương tác và chuyển đổi dữ liệu thô nhiều lần nếu cần.

Lịch sử của ETL và ELT

ETL đã tồn tại từ những năm 1970, đặc biệt phổ biến với sự phát triển của kho dữ liệu. Tuy nhiên, kho dữ liệu truyền thống cần có các quy trình ETL tùy chỉnh đối với mỗi nguồn dữ liệu.

Sự phát triển của công nghệ đám mây đã thay đổi những khả năng có thể thực hiện được. Giờ đây, các công ty có thể lưu trữ dữ liệu thô không giới hạn ở quy mô lớn và sau này phân tích theo yêu cầu. ELT đã trở thành phương pháp tích hợp dữ liệu hiện đại để phân tích hiệu quả.

Điểm khác biệt chính giữa ETL và ELT

Trích xuất, tải và chuyển đổi (ELT) đã cải thiện trích xuất, chuyển đổi và tải (ETL) theo nhiều cách.

Vị trí chuyển đổi và tải

Quá trình chuyển đổi và tải xảy ra ở các vị trí khác nhau và sử dụng các quy trình riêng biệt. Quy trình ETL chuyển đổi dữ liệu trên một máy chủ xử lý thứ cấp.

Ngược lại, quy trình ELT tải dữ liệu thô trực tiếp vào kho dữ liệu mục tiêu. Sau đó, bạn có thể chuyển đổi dữ liệu bất cứ khi nào bạn cần. 

Khả năng tương thích với dữ liệu

ETL phù hợp nhất với dữ liệu có cấu trúc mà bạn có thể biểu thị trong bảng có các hàng và cột. ETL chuyển đổi một tập hợp dữ liệu có cấu trúc thành một định dạng có cấu trúc khác rồi tải dữ liệu ở định dạng đó.

Ngược lại, ELT xử lý tất cả các loại dữ liệu, bao gồm dữ liệu phi cấu trúc như hình ảnh hoặc tài liệu mà bạn không thể lưu trữ ở định dạng bảng. Với ELT, quy trình này tải các định dạng dữ liệu khác nhau vào kho dữ liệu mục tiêu. Sau đó, bạn có thể tiếp tục chuyển đổi dữ liệu thành định dạng bạn cần.

Tốc độ

ELT nhanh hơn ETL. ETL có thêm một bước trước khi tải dữ liệu vào mục tiêu và bước này rất khó điều chỉnh quy mô và làm chậm hệ thống khi kích thước dữ liệu tăng lên.

Ngược lại, ELT song song tải dữ liệu trực tiếp vào hệ thống đích và chuyển đổi dữ liệu. ELT sử dụng năng lực xử lý và cách chạy song song mà kho dữ liệu đám mây mang lại để cung cấp quá trình chuyển đổi dữ liệu theo thời gian thực hoặc gần thời gian thực cho các phân tích. 

Chi phí

Quy trình ETL cần đến các phân tích ngay từ đầu. ETL cần các nhà phân tích lập kế hoạch trước về các báo cáo mà họ muốn tạo ra và xác định cấu trúc dữ liệu và định dạng. Thời gian cần thiết để thiết lập sẽ tăng lên, qua đó gia tăng chi phí. Cơ sở hạ tầng máy chủ bổ sung cho việc chuyển đổi cũng có thể gia tăng chi phí.

ELT có ít hệ thống hơn ETL vì tất cả các quá trình chuyển đổi diễn ra trong kho dữ liệu mục tiêu. Vì có ít hệ thống hơn, bạn cũng ít phải bảo trì hơn, qua đó tạo ra một bộ dữ liệu đơn giản hơn và giảm chi phí thiết lập.

Bảo mật

Khi bạn làm việc với dữ liệu cá nhân, bạn phải tuân thủ các quy định về quyền riêng tư dữ liệu. Các công ty phải bảo vệ thông tin nhận dạng cá nhân (PII) khỏi hành vi truy cập trái phép.

Trong ETL, các nhà phát triển phải xây dựng các giải pháp tùy chỉnh, như che chắn PII để theo dõi và bảo vệ dữ liệu.

Trái lại, các giải pháp ELT cung cấp nhiều tính năng bảo mật – như kiểm soát truy cập chi tiết và xác thực đa yếu tố – trực tiếp trong kho dữ liệu. Bạn có thể đầu tư nhiều thời gian hơn vào phân tích và ít thời gian hơn vào việc đáp ứng các yêu cầu của quy định dữ liệu.

So sánh về thời điểm nên sử dụng ETL hay ELT

Trích xuất, tải và chuyển đổi (ELT) là lựa chọn tiêu chuẩn cho các phân tích hiện đại. Tuy nhiên, bạn có thể cân nhắc trích xuất, chuyển đổi và tải (ETL) trong các tình huống sau đây.

Cơ sở dữ liệu cũ

Đôi khi, bạn sẽ hưởng lợi nhiều hơn khi sử dụng ETL để tích hợp với cơ sở dữ liệu cũ hoặc các nguồn dữ liệu của bên thứ ba có các định dạng dữ liệu đã xác định trước. Bạn chỉ phải chuyển đổi và tải dữ liệu một lần vào hệ thống của bạn. Sau khi chuyển đổi, bạn có thể sử dụng dữ liệu hiệu quả hơn cho tất cả các phân tích trong tương lai.

Thử nghiệm

Trong các tổ chức lớn, các kỹ sư dữ liệu tiến hành các thử nghiệm – ví dụ như khám phá các nguồn dữ liệu ẩn để phân tích và thử những ý tưởng mới để trả lời các truy vấn về hoạt động kinh doanh. ETL rất hữu ích trong các thử nghiệm dữ liệu để hiểu cơ sở dữ liệu và tính hữu dụng của cơ sở dữ liệu trong một tình huống cụ thể.

Phân tích phức tạp

ETL và ELT có thể được sử dụng cùng nhau cho các phân tích phức tạp sử dụng nhiều định dạng dữ liệu từ nhiều nguồn khác nhau. Các nhà khoa học dữ liệu có thể thiết lập quy trình ETL từ một số nguồn và sử dụng ELT với phần còn lại. Điều này cải thiện hiệu quả phân tích và tăng hiệu năng của ứng dụng trong một số trường hợp.

Ứng dụng IoT

Các ứng dụng Internet vạn vật (IoT) sử dụng luồng dữ liệu cảm biến thường hưởng lợi từ ETL thay vì ELT. Ví dụ: dưới đây là một số trường hợp sử dụng phổ biến cho ETL tại biên:

  • Bạn muốn nhận dữ liệu từ các giao thức khác nhau và chuyển đổi dữ liệu thành các định dạng dữ liệu chuẩn để sử dụng trong khối lượng công việc trên đám mây
  • Bạn muốn lọc dữ liệu tần suất cao, thực hiện các hàm tính trung bình trên các tập dữ liệu lớn, sau đó tải các giá trị đã tính trung bình hoặc đã lọc với tốc độ chậm hơn
  • Bạn muốn tính giá trị từ các nguồn dữ liệu khác nhau trên thiết bị cục bộ và gửi các giá trị đã lọc tới backend của đám mây
  • Bạn muốn làm sạch, chống trùng lặp hoặc điền vào các thành phần dữ liệu chuỗi thời gian bị thiếu

Tóm tắt các điểm khác biệt giữa ETL và ELT

Danh mục

ETL

ELT

Là viết tắt của

Trích xuất, chuyển đổi và tải

Trích xuất, tải và chuyển đổi

Quy trình

Lấy dữ liệu thô và chuyển đổi dữ liệu thô thành một định dạng đã xác định trước, sau đó tải vào kho dữ liệu mục tiêu.

Lấy dữ liệu thô, tải dữ liệu thô vào kho dữ liệu mục tiêu, sau đó chuyển đổi dữ liệu thô ngay trước khi phân tích.

Vị trí chuyển đổi và tải

Quá trình chuyển đổi diễn ra trong một máy chủ xử lý thứ cấp.

Quá trình chuyển đổi diễn ra trong kho dữ liệu mục tiêu.

Khả năng tương thích với dữ liệu

Phù hợp nhất với dữ liệu có cấu trúc.

Có thể xử lý dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc. 

Tốc độ

ETL chậm hơn ELT.

ELT nhanh hơn ETL vì nó có thể sử dụng các tài nguyên nội bộ của kho dữ liệu.

Chi phí

Có thể cần nhiều thời gian và chi phí để thiết lập, tùy thuộc vào các công cụ ETL được sử dụng.

Tiết kiệm chi phí hơn, tùy thuộc vào cơ sở hạ tầng ELT được sử dụng.

Bảo mật

Có thể cần phải xây dựng các ứng dụng tùy chỉnh để đáp ứng các yêu cầu bảo vệ dữ liệu.

Bạn có thể sử dụng các tính năng tích hợp sẵn của cơ sở dữ liệu mục tiêu để quản lý việc bảo vệ dữ liệu.

AWS có thể hỗ trợ các yêu cầu của bạn về ETL và ELT như thế nào?

Phân tích trên AWS mô tả nhiều lực chọn dịch vụ phân tích từ Amazon Web Services (AWS) phù hợp với tất cả các nhu cầu phân tích dữ liệu của bạn. Với AWS, các tổ chức thuộc mọi quy mô và các ngành có thể đổi mới hoạt động kinh doanh của họ bằng dữ liệu.

Dưới đây là một số dịch vụ AWS mà bạn có thể sử dụng để đáp ứng các yêu cầu của bạn về ETL và ELT:

  • Amazon Aurora hỗ trợ tích hợp không ETL với Amazon Redshift. Sự tích hợp này cho phép phân tích gần theo thời gian thực và máy học thông qua Amazon Redshift trên petabyte (PB) dữ liệu giao dịch từ Aurora.
  • Quy trình dữ liệu của AWS là một dịch vụ ETL được quản lý cho phép bạn xác định việc di chuyển và chuyển đổi của dữ liệu trên nhiều dịch vụ AWS khác nhau.
  • AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ cho các tác vụ ETL định hướng theo sự kiện và tác vụ ETL không cần mã.
  • AWS IoT Greengrass hỗ trợ các trường hợp sử dụng ETL tại biên của bạn bằng cách đưa quá trình xử lý đám mây và logic cục bộ đến các thiết bị biên.
  • Amazon Redshift cho phép bạn thiết lập tất cả các quy trình làm việc ELT và truy vấn trực tiếp các tập dữ liệu từ nhiều nguồn khác nhau.  

Bắt đầu sử dụng ELT và ETL trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay.

Các bước tiếp theo để sử dụng AWS