ihadu

发表于2021-10-15|大数据hive| 条评论

一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。这里说明一下分区表并 Hive 独有的概念，实际上这个概 ...

Hive常用DDL操作

发表于2021-10-15|大数据hive| 条评论

一、Database 1.1 查看数据列表 show databases; 1.2 使用数据库 USE database_name; 1.3 新建数据库语法： CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SCHEMA 是等价的 [COMMENT database_comment] --数据库注释 ...

hive CLI和Beeline命令行的基本使用

发表于2021-10-15|大数据hive| 条评论

一、Hive CLI 1.1 Help 使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助，显示如下： usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e ...

Linux环境下Hive的安装

发表于2021-10-15|大数据hive| 条评论

一、安装Hive 1.1 下载并解压下载所需版本的 Hive，这里我下载版本为 cdh5.15.2。下载地址：http://archive.cloudera.com/cdh5/cdh/5/ # 下载后进行解压 tar -zxvf hive-1.1.0-cdh5.15.2.tar.gz 1.2 配置环境变量 # vim /etc/profile 添加环境变量： export HIVE_HOME=/ ...

Hive的简介及核心概念

发表于2021-10-15|大数据hive| 条评论

一、简介 Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。特点：简单、容易上手 (提供了类似 sql 的查询语言 hql)，使得精通 sql 但是不了解 Java 编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户 ...

基于ZooKeeper搭建Hadoop

发表于2021-10-15|中间件zookeeper| 条评论

一、高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用，两者的实现基本类似，但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多，所以它的实现也更加复杂，故下面先进行讲解： 1.1 高可用整体架构 HDFS 高可用架构如下：图片引用自：https://www.edurek ...

HDFS JAVA API

发表于2021-10-15|大数据hadoop| 条评论

一、简介想要使用 HDFS API，需要导入依赖 hadoop-client。如果是 CDH 版本的 Hadoop，还需要额外指明其仓库地址： <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...

HDFS常用shell命令

发表于2021-10-15|大数据hadoop| 条评论

1. 显示当前目录结构 # 显示当前目录结构hadoop fs -ls <path># 递归显示当前目录结构hadoop fs -ls -R <path># 显示根目录下内容hadoop fs -ls / 2. 创建目录 # 创建目录hadoop fs -mkdir <path> # 递归创建目录hadoop fs -mkdir -p <pat ...

Hadoop集群环境搭建

发表于2021-10-15|大数据hadoop| 条评论

一、集群规划这里搭建一个 3 节点的 Hadoop 集群，其中三台主机均部署 DataNode 和 NodeManager 服务，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。二、前置条件 Hadoop 的运行依赖 JDK，需要预先安装。其安装步骤单独整理至： Linux 下 JDK 的安装三、配置免密登录 3.1 生成密匙在 ...

Hadoop单机版环境搭建

发表于2021-10-15|大数据hadoop| 条评论

一、前置条件 Hadoop 的运行依赖 JDK，需要预先安装，安装步骤见： Linux 下 JDK 的安装二、配置免密登录 Hadoop 组件之间需要基于 SSH 进行通讯。 2.1 配置映射配置 ip 地址和主机名映射： vim /etc/hosts# 文件末尾增加192.168.43.202 hadoop001 2.2 生成公私钥执行下面命令行生成公匙和私匙： ssh-key ...