Site icon Nhạc lý căn bản – nhacly.com

[Data Lake Là Gì] – Phân biệt Data Warehouse và Data Lake

Data Lake là gì?

data lake là gì
Data lake đóng vai trò như một kho tàng trữ TT được sử dụng để tàng trữ một số ít loại tài liệu trên quy mô lớn. Ví dụ : bạn hoàn toàn có thể tàng trữ tài liệu phi cấu trúc, cũng như tài liệu có cấu trúc, trong data lake của bạn .
Data lake không nhu yếu bất kể upfront work nào trên tài liệu. Bạn chỉ cần tích hợp và tàng trữ tài liệu khi tài liệu truyền vào từ nhiều nguồn. Tùy thuộc vào năng lực của mạng lưới hệ thống bạn đang sử dụng, bạn hoàn toàn có thể thiết lập quy trình nhập tài liệu theo thời hạn thực .
Các tổ chức triển khai thường sử dụng những data lake để tàng trữ tài liệu cho những nghiên cứu và phân tích trong tương lai hoặc thời hạn thực. Việc này thường nhu yếu sử dụng những công cụ và khuôn khổ nghiên cứu và phân tích, như Google BigQuery, Amazon Athena hoặc Apache Spark .

Kiến trúc của Data Lake

Một data lake có thể có nhiều kiểu kiến ​​trúc vật lý khác nhau vì nó có thể được thực hiện bằng nhiều công nghệ khác nhau. Tuy nhiên, có ba nguyên tắc chính giúp phân biệt data lake với các phương pháp lưu trữ dữ liệu lớn khác:

  • Tất cả dữ liệu được chấp nhận vào data lake: Các dữ liệu được nhập và lưu trữ từ nhiều nguồn, bao gồm dữ liệu có cấu trúc, không có cấu trúc, thô và đã xử lý.
  • Dữ liệu được lưu trữ ở dạng gốc: sau khi nhận dữ liệu từ nguồn, dữ liệu được lưu trữ mà không bị chuyển đổi hoặc được xử lý tối thiểu.
  • Dữ liệu được chuyển đổi theo yêu cầu: dữ liệu được chuyển đổi và cấu trúc theo các yêu cầu phân tích và truy vấn đang được thực hiện.

Hầu hết tài liệu trong data lake là không có cấu trúc và không được phong cách thiết kế để vấn đáp những câu hỏi đơn cử, nhưng nó được tàng trữ theo cách tạo điều kiện kèm theo cho việc truy vấn và nghiên cứu và phân tích động .
Bất kể bạn chọn cách tiến hành data lake như thế nào, những năng lực sau sẽ giúp bạn duy trì hoạt động giải trí và sử dụng tốt tài liệu phi cấu trúc của nó :

  • Phân loại dữ liệu và lập hồ sơ dữ liệu — data lake sẽ giúp bạn phân loại dữ liệu  theo loại dữ liệu, nội dung, tình huống sử dụng và các nhóm người dùng có thể có. Nó nên được trang bị công nghệ cấu hình dữ liệu, để cung cấp những hiểu biết sâu sắc về chất lượng dữ liệu.
  • Các quy ước — data lake nên thực thi các loại file đã thống nhất và các quy ước đặt tên.
  • Truy cập dữ liệu — cần có một quy trình truy cập dữ liệu chuẩn hóa được sử dụng bởi cả người dùng và các hệ thống tích hợp, cho phép theo dõi việc truy cập và sử dụng dữ liệu.
  • Danh mục dữ liệu — data lake phải cung cấp danh mục dữ liệu cho phép tìm kiếm và truy xuất dữ liệu theo kiểu dữ liệu hoặc kịch bản sử dụng.
  • Bảo vệ dữ liệu — phải áp dụng các biện pháp kiểm soát bảo mật, mã hóa dữ liệu và giám sát tự động, đồng thời phải đưa ra cảnh báo khi các bên trái phép truy cập vào dữ liệu hoặc khi người dùng được ủy quyền thực hiện các hoạt động đáng ngờ.
  • Quản trị dữ liệu — cần có các chính sách rõ ràng, được thông báo cho tất cả các nhân viên có liên quan, về cách điều hướng và sử dụng dữ liệu, cách thúc đẩy chất lượng dữ liệu và sử dụng dữ liệu nhạy cảm một cách hợp lý.

Phân tích Data Lake


Phân tích data lake được cho phép nghiên cứu và phân tích theo nhu yếu trên khối lượng lớn tài liệu. Bạn hoàn toàn có thể tạo thông tin cụ thể có giá trị từ tài liệu mà không nhu yếu hạ tầng phức tạp để giải quyết và xử lý trước và sắp xếp tài liệu của bạn .
Một số cách sử dụng thông dụng của nghiên cứu và phân tích data lake là :

  • Phân tích tương tác — lấy thông tin chi tiết cụ thể từ dữ liệu, trực tiếp từ data lake, sử dụng công cụ truy vấn hiệu suất cao như Google BigQuery hoặc Amazon Athena.
  • Xử lý dữ liệu lớn— phân tích khối lượng lớn dữ liệu bằng các công cụ như Spark hoặc Hadoop.
  • Phân tích thời gian thực — xử lý các stream dữ liệu khi chúng chảy vào data lake trong thời gian thực, bằng cách sử dụng các công cụ xử lý stream như Apache Kafka.
  • Phân tích hoạt động — tìm kiếm, lọc và trực quan hóa dữ liệu từ nhật ký và dữ liệu hoạt động, chẳng hạn như phân tích trang web hoặc internet vạn vật (IoT), sử dụng các công cụ như Elasticsearch.

So sánh Data Warehouse và Data Lake

Data Warehouse là một kho dữ liệu được thu thập và tạo ra bởi các ứng dụng kinh doanh. Data Warehouse áp dụng một lược đồ xác định trước cho dữ liệu trước khi lưu trữ nó. Bạn cần sắp xếp và tổ chức dữ liệu trước khi lưu trữ vào kho.

Data Warehouse được sử dụng để lưu trữ một lượng lớn dữ liệu có cấu trúc từ các hệ thống sản xuất, cần được phân tích thường xuyên hoặc được sử dụng để lập các báo cáo định kỳ. Data Warehouse thường là “source of truth” của tổ chức vì chúng lưu trữ dữ liệu lịch sử được tổ chức và phân loại.

Các data lake tàng trữ tài liệu từ nhiều nguồn, gồm có những nguồn không có cấu trúc như tài liệu nhật ký, cảm ứng Internet vạn vật ( IoT ) và nguồn cấp tài liệu truyền thông online xã hội. Về cơ bản, nền tảng data lake là tập hợp những gia tài tài liệu đến từ hoạt động giải trí kinh doanh thương mại của tổ chức triển khai và những nguồn khác, cả nội bộ và bên ngoài .
Dữ liệu trong data lake rất không giống hệt và hoàn toàn có thể nhu yếu giải quyết và xử lý bổ trợ, điều này khiến nó không tương thích với người dùng nghiên cứu và phân tích kinh doanh thương mại trung bình. Tuy nhiên, những data lake hoàn toàn có thể cực kỳ có ích cho những người dùng trình độ hơn, ví dụ điển hình như những nhà khoa học dữ liệu và những nhà nghiên cứu và phân tích tài liệu tiên tiến và phát triển .

Ứng dụng của Data Lake

Quản trị dữ liệu và kiểm soát dữ liệu

Các data lake làm dấy lên những lo lắng lớn về bảo mật thông tin vì chúng chứa nhiều loại tài liệu khác nhau, một trong số đó hoàn toàn có thể nhạy cảm hoặc có những nhu yếu tuân thủ. Bởi vì không có bảng cơ sở tài liệu, những quyền hạn sẽ linh động hơn và khó thiết lập hơn và phải dựa trên những đối tượng người tiêu dùng đơn cử hoặc định nghĩa siêu dữ liệu .
Tuy nhiên, ngày này yếu tố này hoàn toàn có thể được xử lý thuận tiện và nhiều công cụ quản trị khác nhau hoàn toàn có thể được sử dụng để trấn áp những ai có quyền truy vấn vào tài liệu. Các giải pháp hạng mục tài liệu được cho phép người dùng tạo hạng mục tài liệu, chỉ định những loại tài liệu khác nhau và những trấn áp truy vấn cũng như chủ trương tàng trữ cho từng loại .

Lưu trữ một số bản sao lưu dữ liệu

Một trong những nguyên do chính để vận dụng data lake là vì nó tàng trữ tài liệu phi cấu trúc và tách biệt việc tàng trữ khỏi máy tính, được cho phép bạn tàng trữ một lượng lớn tài liệu với một khoản góp vốn đầu tư tương đối nhỏ. Các data lake thường được sử dụng để tàng trữ cả tài liệu thô và tài liệu đã giải quyết và xử lý .
Nhu cầu giữ tài liệu lịch sử dân tộc ở định dạng bắt đầu của nó rất phổ cập. Dữ liệu thô bắt đầu hoàn toàn có thể có nhiều cách sử dụng gồm có :

  • Khôi phục lỗi
  • Xác thực hệ thống hoặc luồng dữ liệu
  • Phân tích thăm dò

Ngoài tài liệu gốc này, cũng có tài liệu đã trải qua quy trình giải quyết và xử lý và được sử dụng trong quy trình tiến độ nghiên cứu và phân tích. Dữ liệu này cũng phải được tàng trữ để hoàn toàn có thể nghiên cứu và phân tích trong tương lai và làm cơ sở cho những báo cáo giải trình và trang tổng quan .
Trước đây, khi mà việc tàng trữ cơ sở tài liệu là rất cồng kềnh, đắt tiền, thì việc tàng trữ cả tài liệu nghiên cứu và phân tích lịch sử dân tộc và hiện tại có vẻ như không khả thi. Nhưng trong những data lake văn minh, với năng lực tàng trữ ngân sách thấp gần như không số lượng giới hạn và năng lực lan rộng ra, điều đó trở nên khả thi. Một data lake được cho phép bạn tàng trữ 1 số ít bản sao tài liệu của mình, mỗi bản sao hoàn toàn có thể có những cách sử dụng tiềm năng khác nhau .

Cài đặt chính sách lưu trữ

Một data lake thường lưu trữ dữ liệu lịch sử, nhưng không có dữ liệu nào được lưu trữ mãi mãi. Dữ liệu phải được xử lý khi không còn cần thiết, để có thể tiết kiệm bộ nhớ và do các yêu cầu của các tiêu chuẩn, chẳng hạn như EU GDPR, California CCPA và Australian APP.

Phải có một chiêu thức kỹ thuật thuận tiện để tách tài liệu bạn muốn xóa khỏi tài liệu bạn muốn giữ lại. Định vị tài liệu trên kiến ​ ​ trúc tàng trữ data lake, hoàn toàn có thể gồm có những dịch vụ tàng trữ như Amazon S3, HDFS và những thiết bị tàng trữ khối, hoàn toàn có thể là một thử thách .Các giải pháp hạng mục tài liệu cũng hoàn toàn có thể giúp xử lý thử thách này, phân phối một giao diện TT hoàn toàn có thể phân loại tài liệu theo những khoảng chừng thời hạn lưu giữ mong ước .

Lợi ích của Data Lake

Ưu điểm của data lake là năng lực khai thác nhiều tài liệu hơn, từ nhiều nguồn hơn, trong thời hạn ngắn hơn và trao quyền cho người dùng cộng tác và nghiên cứu và phân tích tài liệu theo những cách khác nhau dẫn đến việc ra quyết định hành động tốt hơn, nhanh hơn. Các ví dụ trong đó những data lake có giá trị ngày càng tăng gồm có :

Tương tác với khách hàng được cải thiện

Data Lake hoàn toàn có thể phối hợp tài liệu người mua từ nền tảng CRM với nghiên cứu và phân tích phương tiện đi lại tiếp thị quảng cáo xã hội, một nền tảng tiếp thị gồm có lịch sử vẻ vang mua hàng và phiếu sự cố để trao quyền cho doanh nghiệp hiểu được nhóm người mua sinh lời cao nhất, nguyên do khiến người mua bỏ cuộc và những chương trình tặng thêm hoặc thưởng. Điều đó sẽ làm tăng lòng trung thành với chủ của người mua so với doanh nghiệp .

Cải thiện các lựa chọn đổi mới R&D

Data lake hoàn toàn có thể giúp nhóm R&D kiểm tra giả thuyết của họ, tinh chỉnh và điều khiển những giả định và nhìn nhận hiệu quả, ví dụ điển hình như chọn vật tư tương thích trong phong cách thiết kế mẫu sản phẩm, dẫn đến hiệu suất nhanh hơn, triển khai điều tra và nghiên cứu bộ gen dẫn đến thuốc hiệu suất cao hơn hoặc hiểu được mức độ hài lòng của người mua cho những thuộc tính khác nhau .

Tăng hiệu quả hoạt động

Internet of Things ( IoT ) trình làng nhiều cách hơn để thu thập dữ liệu về những quá trình như sản xuất, với tài liệu thời hạn thực đến từ những thiết bị được liên kết internet. Data lake giúp thuận tiện tàng trữ và chạy nghiên cứu và phân tích trên tài liệu IoT do máy tạo ra để mày mò những cách giảm ngân sách hoạt động giải trí và tăng chất lượng .

5/5 – ( 2 bầu chọn )

Exit mobile version