Hive安装（mysql作为元数据库）

2023-01-17

字数：2.2k字 | 预计阅读时长：10分钟

摘要：本文主要记录📝基于Hadoop环境的Hive（2.3.4）的安装与配置(使用mysql作为元数据库），以及补充学到的知识点，文章以图文形式呈现，主要参考CSDN博主「原来浙小商啊」。

背景
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。Hive构建在 Apache Hadoop之上，支持通过 hdfs 在 S3、adls、gs 等上进行存储。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

一、环境准备

三台服务器（master、slave1、slave2）
各节点完成了IP映射与ssh免密
没完成的可以看下这篇文章《云服务器IP映射与ssh免密登录》
Hadoop集群完成配置
没完成的可以看下这篇文章《Hadoop完全分布式配置》
相关软件安装包下载
百度云链接提取码：r93h
由CSDN博主「原来浙小商啊」提供

二、Hive的基本安装

1.hive下载和解压

你可以直接使用和我对应版本我软件包，也可以去hive的官网下载

上传⏫文件可以用scp，前面文章有写

⚠️Hive只需要在master节点上安装配置

进入/usr/local目录，解压apache-hive-2.3.4-bin.tar.gz 到该目录下，并将解压的文件重命名为hive-2.3.4，最后移动到创建的hive文件夹中

[root@master ~]# cd /usr/local
新建hive目录
[root@master local]# mkdir hive
解压
[root@master local]# tar -zxvf apache-hive-2.3.4-bin.tar.gz
改名
mv apache-hive-2.3.4-bin hive-2.3.4
将其移动到hive目录下
[root@master local]# mv hive-2.3.4 hive
[root@master local]# cd hive
[root@master hive]#

可以切换到hive目录下查看解压好的文件夹
20230117130708

2.配置hive环境变量

设置环境变量，编辑vi /etc/profile，在末尾添加以下代码；

[root@master hive]# vim /etc/profile               
export JAVA_HOME=/usr/local/java/jdk1.8.0_191
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HIVE_HOME=/usr/local/hive/hive-2.3.4
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin

20230117131046

最后：source /etc/profile使刚刚的配置生效
[root@master ~]# source /etc/profile

查看hive是否安装成功：

[root@master ~]# hive --version

出现如下界面代表配置成功

20230117131704

出现hive版本就说明安装成功

三、Hive的配置

在/usr/local/hive/hive-2.3.4/conf目录下，修改hive-site.xml和hive-env.sh两个文件

1.hive-site.xml

hive-site.xml保存Hive运行时所需要的相关配置信息。

1 2	[root@master hive]# cd hive-2.3.4/conf [root@master conf]# mv hive-default.xml.template hive-site.xml

温馨提示：文件有5千多行，如果你和我版本对应可以直接用软件包里的这个文件，要修改的话，可以将这个文件下载到自己主机用编辑器编辑后再上传

我是直接把master上的hive-site.xml删了，直接创建一个：vi hive-site.xml，将软件包里hive-site.xml的文件内容全选复制到其中（按i进入编辑模式后再进行粘贴）

自己编辑如下：

⚠️在hive-site.xml中找到下面的几个对应name的property,然后把value值更改

javax.jdo.option.ConnectionURL

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://master:3306/hive_metadata?createDatabaseIfNotExist=true</value>
    <description>
      JDBC connect string for a JDBC metastore.
      To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
      For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.
    </description>
 </property>

20230117144414

javax.jdo.option.ConnectionDriverName

<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
 </property>

20230117144605

javax.jdo.option.ConnectionUserName

<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
    <description>Username to use against metastore database</description>
 </property>

20230117144647

javax.jdo.option.ConnectionPassword

<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hive</value>
    <description>password to use against metastore database</description>
 </property>

20230117144730

hive.querylog.location

<property>
    <name>hive.querylog.location</name>
    <value>/usr/local/hive/hive-2.3.4/tmp/hadoop</value>
    <description>Location of Hive run time structured log file</description>
  </property>

20230117144832

hive.server2.logging.operation.log.location

<property>
    <name>hive.server2.logging.operation.log.location</name>
    <value>/usr/local/hive/hive-2.3.4/tmp/hadoop/operation_logs</value>
    <description>Top level directory where operation logs are stored if logging functionality is enabled</description>
  </property>

20230117145230

hive.exec.local.scratchdir

<property>
    <name>hive.exec.local.scratchdir</name>
    <value>/usr/local/hive/hive-2.3.4/tmp/hadoop</value>
    <description>Local scratch space for Hive jobs</description>
  </property>

20230117145316

hive.downloaded.resources.dir

<property>
    <name>hive.downloaded.resources.dir</name>
    <value>/usr/local/hive/hive-2.3.4/tmp/${hive.session.id}_resources</value>
    <description>Temporary local directory for added resources in the remote file system.</description>
  </property>

20230117145358

hive.metastore.schema.verification

<property>
    <name>hive.metastore.schema.verification</name>
    <value>false</value>
    <description>
      Enforce metastore schema version consistency.
      True: Verify that version information stored in is compatible with one from Hive jars.  Also disable automatic
            schema migration attempt. Users are required to manually migrate schema after Hive upgrade which ensures
            proper metastore schema migration. (Default)
      False: Warn if the version information stored in metastore doesn't match with one from in Hive jars.
    </description>
  </property>

20230117145437

完成后，记得保存哦，一定要细心🌱

2.hive-env.sh

由于Hive是一个基于Hadoop分布式文件系统的数据仓库架构，主要运行在Hadoop分布式环境下，因此，需要在文件hive-env.sh中指定Hadoop相关配置文件的路径，用于Hive访问HDFS（读取fs.defaultFS属性值）和MapReduce（读取mapreduce.jobhistory.address属性值）等Hadoop 相关组件。

[root@master conf]# mv hive-env.sh.template hive-env.sh

vi hive-env.sh打开文件，找到下面的位置，做对应修改

20230117151341

HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7

export HIVE_CONF_DIR=/usr/local/hive/hive-2.3.4/conf

export HIVE_AUX_JARS_PATH=
export JAVA_HOME=/usr/local/java/jdk1.8.0_191
export HIVE_HOME=/usr/local/hive/hive-2.3.4

至此Hive基础配置完成啦🌿

四、Mysql的安装与配置

Hive需要数据库来存储metastore的内容，因此我们需要配置一下MySQL数据库。

1.MySQL下载

下载mysql驱动

把下载好的mysql-connector-java.jar这个jar包拷到/usr/local/hive/hive-2.3.4/lib/下面，在百度云链接 (提取码：r93h)里都有

安装MySQL数据库

[root@master ~]# cd /usr/local/src/
[root@master src]# wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm
[root@master src]# rpm -ivh mysql-community-release-el7-5.noarch.rpm
[root@master src]# yum install mysql-community-server

20230117132651