Hive ir datu noliktavas sistēma, ko izmanto strukturētu datu analīzei. Tas ir izveidots Hadoop augšpusē. To izstrādāja Facebook.
Hive nodrošina lielu datu kopu lasīšanas, rakstīšanas un pārvaldības funkcionalitāti, kas atrodas izplatītajā krātuvē. Tas palaiž SQL līdzīgus vaicājumus, ko sauc par HQL (Hive vaicājumu valoda), kas tiek iekšēji pārveidoti par MapReduce darbiem.
Izmantojot Hive, mēs varam izlaist prasību par tradicionālo pieeju sarežģītu MapReduce programmu rakstīšanai. Hive atbalsta datu definīcijas valodu (DDL), datu manipulācijas valodu (DML) un lietotāja definētās funkcijas (UDF).
Hive iezīmes
Šīs ir šādas Hive funkcijas:
- Strops ir ātrs un mērogojams.
- Tas nodrošina SQL līdzīgus vaicājumus (t.i., HQL), kas tiek netieši pārveidoti par MapReduce vai Spark darbiem.
- Tas spēj analizēt lielas datu kopas, kas glabājas HDFS.
- Tas nodrošina dažādus uzglabāšanas veidus, piemēram, vienkāršu tekstu, RCFile un HBase.
- Tas izmanto indeksēšanu, lai paātrinātu vaicājumu izpildi.
- Tas var darboties ar saspiestiem datiem, kas tiek glabāti Hadoop ekosistēmā.
- Tā atbalsta lietotāja definētas funkcijas (UDF), kurās lietotājs var nodrošināt savu funkcionalitāti.
Hive ierobežojumi
- Hive nevar apstrādāt reāllaika datus.
- Tas nav paredzēts tiešsaistes darījumu apstrādei.
- Hive vaicājumi satur lielu latentumu.
Atšķirības starp stropu un cūku
Strops | Cūka |
---|---|
Hive parasti izmanto datu analītiķi. | Cūku parasti izmanto programmētāji. |
Tas seko SQL līdzīgiem vaicājumiem. | Tas atbilst datu plūsmas valodai. |
Tas var apstrādāt strukturētus datus. | Tas var apstrādāt daļēji strukturētus datus. |
Tas darbojas HDFS klastera servera pusē. | Tas darbojas HDFS klastera klienta pusē. |
Strops ir lēnāks nekā Pig. | Cūka ir salīdzinoši ātrāka nekā Hive. |