Hadoop压缩---double_happy

调优点：

为什么要使用压缩呢？

1.节省空间 （数据在hdfs上以3副本存储 如果采用压缩 占用空间会少一些）
2.时间：网络io 和 磁盘io 会减少 
  （mapreduce过程中 map端输出采用压缩和不采用压缩效果很明显）
  2.1 map端到reduce端会经过shuffle 如果map端采用压缩那么 map端数据传到reduce端过程中
     数据压缩后体积会变小，那么经过网络传输的数据会变少 减少网络io
     因为要经过网络传输，需要从磁盘读到内存 磁盘上的数据压缩后 读取到内存的数据体积
     也会变小  所以也减少磁盘io
  这样传输的时间也会减少很多，所以有必要进行压缩。

但是注意的是如果采用压缩，对机器的cpu的要求高，所以压缩的使用场景

1.存储数据的空间不够
2.机器的core要足够

如果core不够还采用压缩，那么还是别采用压缩啦。

压缩的技术

有损压缩(lossy compression) : 适用于图片和视频允许丢失几帧
无损压缩(lossless compression):原始数据解压缩数据是没有丢失的

对称和非对称：就是压缩和解压的时间相同叫对称，反义。

压缩的使用场景结合mapreduce

数据压缩 map端输出可以用，reduce端输出也可以使用

input   
  因为这块 map读取数据的时候的inputformat默认会识别数据输入采用什么格式的压缩获取codec（
     textinputformat源码里有）
map out         配个参数就可以
reduce out    配个参数就可以

spark、flink同样的

凡事都有两面性

空间和时间 ok
cpu 耗费 cpu的利用率会高而且整个作业的处理时长会略微长一些

使用的压缩：
	有个解压缩过程 所以整个作业时间会略微长

所以为了减少空间和网络磁盘io传输时间 cpu的耗费以及作业的时长会变长

常见的压缩格式

在这里插入图片描述
还有LZ4

如何选择呢，这么多压缩的格式压缩比和解压缩度

在这里插入图片描述

相同配置的机器测试看看

压缩比：压缩前和压缩后的比值

压缩比    Bzip2 30%   Gzip (两者之间)  ,snappy \lzo50%
解压速度    反过来

在这里插入图片描述

压缩能否分片

hadoop作业是io密集型的，所以他的作业尽可能的采用压缩
spark、flink作业是pipline型的

注意：压缩又的是java写的，有的是native的，
所以你要在Hadoop里使用LZO(native的) 需要下载一些native的依赖

Splitable：
	一个文件相当于一个map task来处理，
	1.假设一个5G的文件，不能使用分割的，也就意味着这个文件只能使用一个
	maptask来处理，如果这个能分割，5G拆成10分 会采用10个maptask来处理
	并行处理。5*1024/10 = 一个maptask处理的数据量。

是否能够分割就决定了你的一个maptask处理的数据量有多少，
如果能够分割就可以多个maptask并行处理

压缩是否支持分割

分割：  注意是压缩过后的压缩文件是否支持分割的
gzip    不可分割
bzip2  可分割
LZo    带索引可以分割（默认是不支持分割的）
Snappy 不可分割

是否能分割对使用哪个压缩有很大的影响意义

在这里插入图片描述

上图三个部分使用压缩：mapreduce的流程使用压缩的部分

input：
map out
reduce out

在这里插入图片描述

三个地方使用的压缩推荐：
	input：
		Bzip2(支持分割 读一个文件 支持分割会多个并行的maptask进行处理) 数据量特别大 如果不支持压缩
		就会有一个maptask进行处理，性能很低。
	
	mapout：
		shuffle过程要选择一个解压速度更快的压缩
		因为每个maptask输出数据写到磁盘上之后经过网络io
		没有必要采用压缩比高的，之后到reducetask这过程中是采用分片和不分片这块不重要了已经
		因为maptask进来之前是一个大文件拆成多个maptask来处理
		到reduce这个过程中 难道你还需要拆么？不需要，所以这块最重要的是解压速度
	reduceout：
		1.高的压缩比节省空间（使用于归档文件）
		2.作为下一个map的输入呢？应该采用什么压缩方式，我会选择Bzip2或者LZO带索引的(支持分片)

MapReduce作业使用压缩实战

在Hadoop的core-site.xml里配置压缩，mapreduce-site.xml配置你采用压缩的位置(map的输出和reduce的输出)

core-site.xml:

  <property>
    <name>io.compression.codecs</name>
  <value>
  org.apache.hadoop.io.compress.GzipCodec,
  org.apache.hadoop.io.compress.DefaultCodec,
  org.apache.hadoop.io.compress.BZip2Codec,
  org.apache.hadoop.io.compress.SnappyCodec,
  com.hadoop.compression.lzo.LzoCodec,
  com.hadoop.compression.lzo.LzopCodec
  </value>
</property>

mapreduce-site.xml:
	 <property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>

<property>
  <name>mapreduce.output.fileoutputformat.compress.codec</name>
  <value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>

测试：
wc
hdfs最后生成的结果是以bzip结尾的

在这里插入图片描述

Hive的压缩使用

1.创建表：
CREATE EXTERNAL TABLE `ods_uid_pid_info_compression_test`(
`uid` string, 
`pid` string
)
row format delimited fields terminated by '\t';

load data local inpath '/home/double_happy/data/user_pid.txt' overwrite into table ods_uid_pid_info_compression_test;

2.去hdfs上查看这数据

在这里插入图片描述

使用压缩：
	hive客户端里：
	set hive.exec.compress.output=true;
	set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;

在这里插入图片描述

查看hdfs上数据大小：
在这里插入图片描述

可以对比一下数据小了。

注意：
	hive里设置压缩不建议直接在hive-site.xml里面配置，那是全局的，
	建议还是在使用的时候用命令的方式

调优点：

压缩的技术

压缩的使用场景结合mapreduce

凡事都有两面性

常见的压缩格式

如何选择呢，这么多压缩的格式 压缩比和解压缩度

压缩能否分片

压缩是否支持分割

MapReduce作业使用压缩实战

Hive的压缩使用

如何选择呢，这么多压缩的格式压缩比和解压缩度