Elt Là Gì

 - 

Tomorrow Marketers – ELT là viết tắt của “extract, load và transform” (trích xuất, tải và chuyển đổi) – những quá trình mà một data pipeline (đường ống dữ liệu) sử dụng để xào luộc dữ liệu từ hệ thống nguồn sang một khối hệ thống khác, ví dụ như kho dữ liệu đám mây.

Bạn đang xem: Elt là gì

Trích xuất: sao chép dữ liệu từ khối hệ thống nguồn.Tải: Ở cách thứ nhì này, pipeline sẽ coppy dữ liệu từ mối cung cấp sang một hệ thống khác, rất có thể là một kho tài liệu (data warehouse) hoặc hồ dữ liệu (data lake).Chuyển đổi: Khi dữ liệu đã nằm trong hệ thống mới, doanh nghiệp hoàn toàn có thể thực hiện bất cứ chuyển đổi nào đề nghị thiết. Thông thường, những doanh nghiệp sẽ chuyển đổi dữ liệu thô theo không ít cách khác biệt với hầu hết công cụ và quy trình tương ứng.

Trước khi đi sâu vào tìm hiểu sự dịch chuyển của người tiêu dùng sang tiến trình ELT, hãy thuộc đi sang 1 số điểm lưu ý của quy trình ETL truyền thống nhé:

Quy trình ETL (Extract, Transform, Load)

Trong quá trình phân tích của ngẫu nhiên doanh nghiệp nào, bước chuyên sâu nhất thường xuyên là chuẩn bị dữ liệu: bao hàm việc tổng hợp, có tác dụng sạch và tạo các tập dữ liệu để giao hàng cho chuyển động kinh doanh và quy trình ra quyết định. Tiến trình này hay được nghe biết với cái thương hiệu ETL (Extract, Transform, Load): trích xuất, biến đổi và sở hữu dữ liệu.

Trong quá trình này, một hiện tượng ETL đang trích xuất dữ liệu từ các hệ thống nguồn khác nhau, đổi khác dữ liệu bằng cách áp dụng những phép tính, ghép nối,… và cuối cùng là tải dữ liệu vào kho dữ liệu.


*

Với hướng tiếp cận này, tất cả 3 hoạt động chính:Bạn trích xuất tài liệu từ những nguồn không giống nhau (viết truy hỏi vấn bên trên cơ sở tài liệu SQL hoặc gửi yêu mong trích xuất dữ liệu đến một ứng dụng thông qua API của nó)Những tài liệu này sau đó sẽ được chuyển đổi trong bộ nhớ của phép tắc ETLDữ liệu đã biến hóa sẽ được tải vào kho lưu giữ trữ/kho tài liệu cuối cùng

Điểm then chốt cần chú ý là dữ liệu thô được chuyển đổi bên phía ngoài kho dữ liệu, thường sẽ có sự cung cấp của một dàn sever (staging server) chăm dụng; còn chỉ những tài liệu đã biến hóa mới được tải vào kho dữ liệu.

Quy trình ELT (Extract, Load, Transform)

ELT là một hướng tiếp cận khác. Vắt vì thay đổi dữ liệu trước lúc chúng được cài đặt vào các đại lý dữ liệu, ELT thực hiện quy trình chuyển đổi bên phía trong kho dữ liệu. Tài liệu của bạn sẽ được mua vào kho dữ liệu, tiếp nối mới đến cách chuyển đổi.


*

3 hoạt động chính trong quy trình ELT:Bạn trích xuất dữ liệu từ các nguồnThay vì thay đổi trong cỗ nhớ, các bạn sẽ tải tài liệu thô trực tiếp vào kho dữ liệuCuối cùng, bạn thực hiện bất kể chuyển đổi quan trọng nào trong chính kho dữ liệu

Điểm đặc biệt cần xem xét ở đây là dữ liệu thô được chuyển đổi bên trong khu dữ liệu mà không yêu cầu đến các máy chủ; và kho dữ liệu của bạn bây giờ chứa cả tài liệu thô và tài liệu đã được chuyển đổi.

Sự đổi khác từ ETL quý phái ELT

Trước đây, bài toán xây dựng một kho dữ liệu là cực kỳ tốn kém, cả về phần cứng và phần mềm. Chi phí server, giá cả triển khai và giấy phép ứng dụng cho một dự án công trình lưu trữ dữ liệu vào khoảng 20-30 năm trước hoàn toàn có thể lên mang lại hàng triệu USD và tốn các tháng trời nhằm thực hiện.

Vì kho dữ liệu đắt đỏ như vậy cần để tiết kiệm chi phí, sẽ chỉ những dữ liệu sạch, sẽ được thay đổi và tổng hợp kỹ lưỡng bắt đầu được cài vào kho dữ liệuTrước đây, mọi bạn vẫn áp dụng mô hình thác nước (waterfall development model), vì vậy việc dành thời hạn lên kế hoạch trước tiếp đến mới triển khai các biến hóa là điều phổ biến.

Ở toàn cảnh này, mô hình ETL là trọn vẹn hợp lý: dữ liệu thô đang được chuyển đổi cẩn thận trong máy chủ dàn (hoặc một phép tắc ETL) trước khi được download vào kho dữ liệu. Khối lượng dữ liệu mà các công cố khi ấy rất có thể xử lý là kha khá nhỏ, vì đó máy chủ không chạm chán khó khăn trong cai quản lý.

Tuy nhiên, ở thời khắc hiện tại, ETL lại có một số trong những hạn chế như sau:Mọi quy trình chuyển đổi dữ liệu đều cần đến việc tham gia của lực lượng IT hoặc kỹ sư dữ liệu để rất có thể mã hoá các đổi khác mới. Các công nuốm ETL được áp dụng trong mô hình cũ gần như không tiếp cận được với các chuyên gia phân tích dữ liệu – những người dân thường có căn cơ về SQL. Do đó, các chuyên gia phân tích dữ liệu phải dựa vào vào kỹ sư dữ liệu để hoàn toàn có thể truy cập vào những dữ liệu đã gửi đổi, cùng sẽ đề nghị đợi thêm những ngày trước khi họ có thể thực hiện nay các report mới.

Xem thêm: Ý Nghĩa Của Xét Nghiệm Máu Phát Hiện Bệnh Gì ? Xét Nghiệm Máu Tổng Quát Và Những Điều Cần Lưu Ý

Điều gì đã xảy ra? Dưới đấy là một vài yếu tố vẫn xuất hiện trong số những thập niên 2010s với từ đó có mặt lên 1 phía tiếp cận mới:Yếu tố đầu tiên đó là kho dữ liệu đám mây càng ngày trở buộc phải phổ biến. Các kho dữ liệu tân tiến ngày nay hoàn toàn có thể lưu trữ và xử trí một lượng dữ liệu rất lớn với chi tiêu rất thấp.Cuối cùng, đó là ​​sự nở rộ của các phương pháp phát triển ứng dụng tinh gọn cùng linh hoạt (lean & agile). Xu thế này cho thấy thêm rằng mọi fan đang trông đợi nhiều hơn thế từ bộ phận dữ liệu, hệt như cách họ vẫn quen với tốc độ thực thi mau lẹ của nhóm ngũ cách tân và phát triển phần mềm.

Mọi người phân biệt rằng với chi tiêu lưu trữ cùng xử lý tài liệu thấp như hiện nay nay, bọn họ hoàn toàn rất có thể đổ tất cả dữ liệu vào một trong những chỗ, trước lúc thực hiện bất cứ chuyển đổi nào.

Và đó là nguyên nhân ELT ngày càng trở nên phổ biến hơn. Đối lập với ETL, ELT cài đặt những lợi thế sau:Nó vứt bỏ tắc nghẽn năng suất tại hệ thống máy chủ/công thay đường ống ETL. Điều này rất quan trọng đặc biệt vì các kho dữ liệu đã tăng sức mạnh xử lý ở lever vượt xa khí cụ đường ống ETL tiên tiến và phát triển nhất.ELT không yêu cầu việc lập planer về dữ liệu nào cần biến hóa trước. Các chuyên gia dữ liệu dần dần trở yêu cầu linh hoạt rộng trong cách tiếp cận của chính bản thân mình thay vì đề nghị lên kế hoạch chi tiết như ở phía tiếp cận ETLVới những công cụ đổi khác và mô hình hóa phù hợp, ELT ko yêu cầu các kỹ sư dữ liệu luôn luôn phải ngơi nghỉ chế hễ “sẵn sàng tất cả mặt” để thỏa mãn nhu cầu những yêu mong từ team phân tích. Bài toán này khiến cho các data analyst tăng sự dữ thế chủ động và vận tốc thực thi.Dưới đây là bảng tổng hòa hợp những biệt lập chính thân ETL & ELT:
ETLELT
Lịch sử– Kho dữ liệu rất tốn kém (hàng triệu USD), khối lượng dữ liệu làm việc mức cai quản được– quy mô thác nước (waterfall development) vẫn đã thông dụng– Kho dữ liệu đám mây làm sút đáng kể túi tiền lưu trữ & xử lý dữ liệu (chỉ còn mặt hàng trăm/hàng nghìn USD)– cân nặng dữ liệu bùng nổ- Các phương pháp tinh gọn & linh hoạt xuất hiện
Quy trìnhDữ liệu thô được chuyển đổi ở bộ phận dàn máy chủ. Chỉ những dữ liệu đã biến đổi mới được download vào kho dữ liệu. Những quá trình biến đổi phụ thuộc vào năng suất xử lý của máy chủ.Dữ liệu thô được thiết lập vào kho dữ liệu. Việc biến đổi dữ liệu được thực hiện bên trong kho dữ liệu. Kết quả cũng được lưu trữ trong kho dữ liệu. Các quá trình đổi khác phụ thuộc vào hiệu suất xử lý của kho dữ liệu.
Ưu điểm/Hạn chếKho dữ liệu chỉ chứa dữ liệu đã được gia công sạch và đưa đổi, từ kia doanh nghiệp hoàn toàn có thể tối ưu hoá công dụng của kho dữ liệu. Tuy nhiên không tác dụng khi trọng lượng dữ liệu lớn. Thường xuyên mất mặt hàng tuần, các tháng để đổi khác quy trình vì chưng áp dụng mô hình thác nước.Tất cả tài liệu được lưu trữ ở kho tài liệu đám mây, trường đoản cú đó rất đơn giản để đổi khác kho tài liệu mới. Không đề nghị đến các dàn máy chủ bổ trợ. Vẫn vận động tốt khi khối lượng dữ liệu tăng lên. Chỉ mất vài ngày để biến đổi /thiết lập dữ liệu mới.

Tạm kết

Quy trình như thế nào cũng hướng tới mục đích sau cùng là tận dụng xuất sắc nguồn tài liệu dồi dào để sản xuất lợi thế tuyên chiến đối đầu cho doanh nghiệp. Dữ liệu khi được khai quật triệt để để giúp bạn dễ ợt nắm bắt thực trạng hiện tại, đưa ra dự báo mang đến tương lai và luôn trong tâm cụ đi trước một cách so cùng với sự biến động của thị trường. Nếu bạn muốn tìm phát âm sâu hơn về phương pháp xây dựng hệ thống dữ liệu, cũng tương tự củng cố tư duy khai quật dữ liệu trong quản lý và vận hành doanh nghiệp, hãy xem thêm khoá học tập Data System của Tomorrow Marketers!

Khoá học tập Data System của Tomorrow Marketers ý muốn truyền tải, sẽ giúp đỡ các doanh nghiệp thành lập văn hoá tài liệu và khai thác những tiềm năng vững mạnh ngay từ dữ liệu nội bộ. Khoá học Data System sẽ giúp bạn hiểu rõ:

Tầm đặc trưng của hệ thống dữ liệu nội bộ đối với sự tăng trưởng lâu dài của doanh nghiệp.Cấu trúc của khối hệ thống dữ liệu nội bộ: làm rõ các yếu tắc của một hệ thống dữ liệu trả chỉnh.Tư duy xây dựng các bước và số hoá quy trình sale nhằm thu thập được dữ liệu qua thời gianTư duy kiến tạo đường ống dữ liệu và nhà kho dữ liệu, góp doanh nghiệp chuẩn chỉnh hoá dữ liệu từ sớm.Tư duy khai quật dữ liệu để xây dựng report quản trị, hỗ trợ bức tranh toàn cảnh của kinh doanh và đo lường và thống kê hoạt động.

Tìm đọc về khoá học tập ngay trên đây.

Xem thêm:

*

Bài viết vị Holistics và được biên dịch vì Tomorrow Marketers, phấn kích không sao chép dưới hầu hết hình thức.