Hbase简介
一、Hadoop的局限 HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。 要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都做了优化,同时也通过多副本解决了容灾问题。 但是 H ...
Hive条件与日期函数汇总
条件函数 assert_true(BOOLEAN condition) 解释 如果condition不为true,则抛出异常,否则返回null 使用案例 select assert_true(1<2) -- 返回nullselect assert_true(1>2) -- 抛出异常 coalesce(T v1, T v2, …) 解释 返回第一个不为null的值,如 ...
ZooKeeper使用场景
ZooKeeper 是什么 ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 客户端的读请求可以被集群中的任意一台机器处理,如果读请求在节点上注册了监听器,这个监听器也是由所连 ...
Sqoop一致性探讨
Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用–input-null-string和–input-null-non-string两个参数。导入数据时采用–null-string和–null-non-string。 Sqoop数据导出一致性问题 场景1: 如Sqoop在导出 ...
Sqoop常用命令及参数
Sqoop 常用命令及参数 常用命令列举 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取数据库中某张表数据生成Java 并打包Jar 4 create-hive-table CreateHiveTableTool 创建 Hive 表 ...
Sqoop使用案例
Sqoop 原理 将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。 测试 Sqoop 是否能够成功连接数据库 $ bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/--username root --pass ...
Hive常用查询函数
1 空字段赋值NVL函数 1.函数说明 NVL:给值为NULL的数据赋值,它的格式是NVL( string1, replace_with)。它的功能是如果string1为NULL,则NVL函数返回replace_with的值,否则返回string1的值,如果两个参数都为NULL ,则返回NULL。 2.数据准备:采用员工表 3.查询:如果员工的comm为NULL,则用-1代替 hive (de ...
Hive数据查询实战
一、数据准备 为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 数据文件 emp.txt 和 dept.txt 可以从本仓库的resources 目录下载。 1.1 员工表 -- 建表语句CREATE TABLE emp( empno INT, -- 员工表编号 ename STRING, -- ...
Hive 常用DML操作
一、加载文件数据到表 1.1 语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOCAL 关键字代表从本地文件系统加载文件,省略则代表从 HDFS 上加载文件: 从本地文件系统加 ...
Hive分区表和分桶表
一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能。 这里说明一下分区表并 Hive 独有的概念,实际上这个概 ...