Hive là gì

 - 

Thuật ngữ Big Data được sử dụng cho những bộ tập dữ liệu khổng lồ bao gồm khối lượng lớn, tốc độ cao và các loại dữ liệu đang tạo thêm từng ngày. Sử dụng những hệ thống quản lý dữ liệu truyền thống, rất nặng nề để cách xử lý Big data. Vì chưng đó, Quỹ phần mềm Apache (Apache Software Foundation) đã reviews một framework tên là Hadoop để giải quyết và xử lý các thách thức quản lý và cách xử lý Big data.

Bạn đang xem: Hive là gì

Hadoop

Hadoop là 1 trong framework open-source để tàng trữ và cách xử lý Big data trong môi trường thiên nhiên phân tán. Nó đựng hai mô-đun, một là MapReduce với một mô-đun khác là khối hệ thống tệp phân tán Hadoop (Hadoop Distributed file System - HDFS).

MapReduce: Đây là mô hình lập trình song song để giải pháp xử lý một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và không kết cấu trên các cụm lớn của phần cứng thương mại dịch vụ (commodity hardware).HDFS: hệ thống tệp phân tán Hadoop là một phần của framework Hadoop, được sử dụng để tàng trữ và xử lý những bộ dữ liệu. Nó cung ứng một khối hệ thống tập tin chịu lỗi để chạy xe trên phần cứng yêu thương mại.

Hệ sinh thái Hadoop chứa những sub-project (tool) khác biệt như Sqoop, Pig với Hive được sử dụng để trợ giúp các mô-đun Hadoop.

Sqoop: Nó được thực hiện để nhập với xuất tài liệu đến với đi giữa HDFS với RDBMS.Pig: Đây là 1 trong những nền tảng ngôn ngữ thủ tục được sử dụng để phát triển tập lệnh đến các hoạt động vui chơi của MapReduce.

Xem thêm: Giá Trị Sổ Sách - Các Yếu Tố Ảnh Hưởng Bvps

Hive: Đây là 1 trong những nền tảng được thực hiện để cải cách và phát triển các tập lệnh một số loại SQL để thực hiện các vận động MapReduce.

Chú ý: có rất nhiều cách khác biệt để thực hiện các chuyển động MapReduce:

Cách tiếp cận truyền thống cuội nguồn sử dụng công tác Java MapReduce cho tài liệu có cấu trúc, bán kết cấu và không cấu trúc.Cách tiếp cận cần sử dụng câu lệnh mang đến MapReduce để xử lý tài liệu có cấu trúc và bán cấu trúc bằng Pig.Ngôn ngữ truy vấn Hive (HiveQL hoặc HQL) đến MapReduce nhằm xử lý dữ liệu có cấu tạo bằng Hive.Hive là gì?

Hive là một công cụ hạ tầng kho dữ liệu để xử lý tài liệu có cấu trúc trong Hadoop. Nó vị trí đỉnh Hadoop để tóm tắt tài liệu lớn cùng giúp tầm nã vấn và phân tích dễ dàng dàng.

Ban đầu Hive được cải cách và phát triển bởi Facebook, tiếp đến Quỹ phần mềm Apache đã đưa và cải tiến và phát triển nó thành một mối cung cấp mở bên dưới tên Apache Hive. Nó được thực hiện bởi các công ty không giống nhau. Ví dụ: Amazon thực hiện nó trong Amazon Elastic MapReduce.

Hive không phải là:Một cơ sở dữ liệu quan hệMột kiến thiết để xử lý giao dịch Online (OnLine Transaction Processing - OLTP)Một ngôn ngữ cho những truy vấn thời hạn thực và cập nhật cấp hàngĐặc trưng của HiveNó tàng trữ lược thứ trong cơ sở tài liệu và xử lý tài liệu vào HDFS.Nó được thiết kế với cho OLAP.Nó cung ứng ngôn ngữ hình trạng SQL nhằm truy vấn được hotline là HiveQL hoặc HQL.Nó là thân quen thuộc, cấp tốc chóng, có tác dụng mở rộng.Kiến trúc của Hive

Sơ đồ tiếp sau đây mô tả kiến trúc của Hive:

*
Sơ đồ gia dụng thành phần này chứa các đơn vị không giống nhau.

User Interface: Hive là một trong những phần mềm cơ sở hạ tầng kho dữ liệu rất có thể tạo ra sự can dự giữa người tiêu dùng và HDFS. Các giao diện người tiêu dùng mà Hive cung cấp là Hive web UI, Hive command line và Hive HD Insight (Trong máy chủ Windows).Meta Store: Hive chọn các máy chủ cửa hàng dữ liệu tương xứng để tàng trữ lược đồ dùng hoặc metadata của các bảng, cơ sở dữ liệu, các cột trong một bảng, các loại dữ liệu của chúng và ánh xạ HDFS.HiveQL Process Engine: HiveQL tương tự như như SQL nhằm truy vấn tin tức lược thiết bị trên Metastore. Đây là trong số những thay cầm cố của cách thức truyền thống cho chương trình MapReduce. Thay bởi viết chương trình MapReduce bởi Java, bạn cũng có thể viết một truy vấn vấn cho quá trình MapReduce và cách xử trí nó.Execution Engine: Phần phối hợp của quy định xử lý HiveQL và MapReduce là Công cụ thực hiện Hive (Hive Execution Engine). Công cụ thực thi xử lý truy hỏi vấn và tạo kết quả giống như hiệu quả MapReduce.HDFS hoặc HBASE: khối hệ thống tệp phân tán Hadoop hoặc HBASE là các kỹ thuật lưu trữ dữ liệu để lưu trữ dữ liệu vào khối hệ thống tệp.Cách thao tác làm việc của Hive

Sơ đồ vật sau trình bày quy trình làm việc giữa Hive cùng Hadoop.

*

Cách Hive shop với framework Hadoop:

Thực thi query: đồ họa Hive như Command line hoặc Giao diện người tiêu dùng web giữ hộ truy vấn mang đến Trình điều khiển (bất kỳ trình tinh chỉnh cơ sở tài liệu nào như JDBC, ODBC, v.v.) để thực thi.Nhận kế hoạch: Trình tinh chỉnh và điều khiển có sự trợ giúp của trình biên dịch truy hỏi vấn để phân tích cú pháp tầm nã vấn để kiểm tra cú pháp và kế hoạch truy vấn hoặc yêu mong của truy nã vấn.Nhận metadata: Trình biên dịch giữ hộ yêu mong metadata cho Metastore (bất kỳ cơ sở tài liệu nào).Gửi metadata: Metastore gửi metadata như một ý kiến cho trình biên dịch.Gửi kế hoạch: Trình biên dịch kiểm soát yêu ước và gửi lại kế hoạch cho trình điều khiển. Đến đây, câu hỏi phân tích cú pháp với biên dịch một truy hỏi vấn sẽ hoàn tất.Kế hoạch thực hiện: Trình điều khiển và tinh chỉnh gửi kế hoạch thực hiện đến khí cụ thực thi.Thực xây cất việc: vào nội bộ, quá trình thực thi quá trình là một các bước MapReduce. Công cụ thực thi gửi quá trình đến JobTracker, vào node Name cùng nó gán các bước này mang lại TaskTracker, trong node Data. Ở đây, truy vấn vấn thực thi các bước MapReduce.

Xem thêm: Tình Cảm Là Gì? So Sánh Xúc Cảm Và Tình Cảm? Đời Sống Tình Cảm

Hoạt cồn metadata: trong lúc thực hiện, luật thực thi rất có thể thực thi các hoạt động metadata với Metastore.Lấy kết quả: Công cụ triển khai nhận tác dụng từ các node Data.Gửi kết quả: Công cụ thực hiện gửi những giá trị tác dụng đó cho trình điều khiển.Gửi kết quả: Trình điều khiển gửi công dụng đến hình ảnh Hive.