目录

配置优化hdfs

1 OverView

https://support.huawei.com/enterprise/zh/doc/EDOC1000113254?section=j00d

1.1 数据格式parquet

2 HDFS Site

key default value 建议值 说明
dfs.block.size   134217728 128MB
dfs.replication   3 副本数
dfs.datanode.du.reserved   10737418240【10G】 磁盘预留空间,根据磁盘大小自己定义
dfs.namenode.handler.count   设置该值的一般原则是将其设置为集群大小的自,然对数乘以20,即20logN,N为集群大小,N表示集群大小 比如50个节点的集群,python -c ‘import math ; print int(math.log(50) * 20)’,78 *NameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10
dfs.datanode.max.xcievers   65536 NameNode同时和DataNode通信的线程数
dfs.balance.bandwidthPerSec   20485760 默认我1048579(1MB/S),将其增大为20MB/S
dfs.datanode.failed.volumes.tolerated 0 2 声明失败前允许多少个硬盘出现故障,服务依然运行
       
       
       

3 Core Site

key default value 建议值 说明
fs.trash.interval   1440分钟=60*24 检查点被删除后的分钟数
fs.trash.checkpoint.interval   1440分钟=60*24 垃圾检查点之间的分钟数
io.file.buffer.size 4096 建议1M 默认4K,以提升 hdfs io
io.bytes.per.checksum   512 每次进行校验和检查的字节数。一定不能大于io.file.buffer.size.