Apache Hive는 방대한 규모에서 분석할 수 있는 내결함성을 갖춘 분산 데이터 웨어하우스 시스템이다. 데이터 웨어하우스는 정보에 입각한 데이터 중심 의사 결정을 내릴 수 있도록 쉽게 분석할 수 있는 정보의 중앙 스토어를 제공하며, 사용자가 SQL를 사용하여 페타바이트 데이터를 읽고 쓰고 관리할 수 있도록 한다.
쉽게 이해하면 HDFS에 저장된 데이터에 대해 SQL을 통해 접근하고자 만들어진 기술이다. Read On Schema SQL 엔진. 근래에는 trino 등이 사용되며 Hive SQL 엔진보다는 Hive Metastore를 활용하는 추세이다.