李玉坤

个人博客

[Hadoop] Hadoop高级之HDFS&YARN HA部署

Hadoop HA搭建、问题总结

Hadoop HA模拟搭建集群条件准备: 3台虚拟机centos7 64位hadoop-2.6.0-cdh5.7.0.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz 本地搭建虚拟机;我们采用.net内网模式hadoop01 192.168.232.5hadoop02 192.168.232.6hadoop03 192......

[Hadoop] Hadoop编译支持5种压缩格式

apache版本编译前置环境为:JDK1.8、Maven3.1、Hadoop2.7.3 1、安装bzip2以及各种依赖[root@hadoop ~]#yum -y install wget gcc gcc-c++ bzip2 bzip2-devel zlib zlib-devel openssl-devel curl curl-devel 2.安装cmake操作步骤如下: ①下载cmake安......

[Hadoop] 分布式资源调度YARN 四

生产如何调优Container参数(container内存、container虚拟核、官方建议、综合memory+vcore、默认规则、假如该节点还有组件)、Yarn调度器和调度算法(FIFO调度器、Capacity Scheduler资源调度器、Fair Scheduler资源调度器)

假设我们有一台物理机器 128G内存 16个core 生产如何调优Container参数?Container:虚拟化的容器 维度 memory+vcore作用是运行task任务 装完CentOS,消耗内存1G 系统预览15%-20%内存(包含系统1G内存),以防全部使用导致系统夯住 和 oom机制事件,或者给未来部署组件预览点空间 此时需要预留内存为:128*20%=25.6G == ......

[Hadoop] 分布式资源调度YARN 三

YARN单机环境搭建、Yarn常用命令介绍、常见基于Yarn的计算框架(MapReduce On Yarn、Spark)

YARN单机环境搭建 mapred-site.xml 1234<property> <name>mapreduce.framework.name</name> <value>yarn</value></property> yarn-site.xml 1234567891011<property> ......

[Hadoop] 分布式资源调度YARN 二

YARN资源调度流程(分步流程图、Yarn各个组件之间的心跳信号、Yarn资源隔离策略)、Yarn容错处理

YARN资源调度流程 用户向yarn提交一个作业 RM为该作业分配第一个container(AM) RM会与对应的NM通信,要求NM在这个container上启动应用程序的AM AM首先向RM注册,然后AM将为各个任务申请资源,并监控运行情况;AM采用轮训的方式通过RPC协议向RM申请和领取资源;AM所需要的资源有多少个core有多个memory到RM进行申请,申请到后返回给AM AM申请......

[Hadoop] 分布式资源调度YARN 一

YARN产生背景、YARN概述、YARN架构、Yarn 基本思想、Yarn 计算资源抽象

YARN产生背景 MapReduce1.x存在的问题:单点故障&节点压力大不易扩展,如下图: 单点故障:整个集群里只有一个JobTracker,一旦挂掉,整个架构就无法完成作业运行 节点压力大不易扩展:JobTracker要来自TaskTracker的rpc请求(心跳)和client的提交查询请求;随着集群的扩展,当集群越来越大的时候TaskTracker就会成为一个瓶颈不易扩展......

[Hadoop] 分布式处理框架MapReduce 三

参数调优(Map Task和Reduce Task数目调整)、MapReduce优点和缺点、MapReduce编程(WordCount案例开发Java版本、Combiner、Partitoner)、jobhistory开启

参数调优Map Task和Reduce Task数目调整 Map Task数目 Map读取文件时,通过InputFormat计算分割文件 split大小由以下三个参数决定 dfs.blocksize HDFS Block大小 mapreduce.input.fileinputformat.split.minsize 划分最小字节数 mapreduce.input.fileinputforma......

[Hadoop] 分布式处理框架MapReduce 二

MapReduce 源代码解析(Hadoop Mapper 定义、Hadoop Reducer 定义、Hadoop Partitioner 定义和默认实现)、MapReduce执行机制、MapReduce 容错性、数据本地性问题、参数调优

MapReduce 源代码解析Hadoop Mapper 定义123456789101112131415161718192021222324public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {public abstract class Contextimplements MapContext<KEYIN,V......

[Hadoop] 分布式处理框架MapReduce 一

MapReduce概述、MapReduce计算场景、MapReduce编程模型(MapReduce编程模型之通过wordcount词频统计分析案例入门)、MapReduce Java API(MapReduce-Map、MapReduce-Reduce)、MapReduce执行步骤(整体 Example 图、Word Count Example 图、Map 数据输入、Reduce 数据输入、Word Count中的shuffle图、Shuffle、Shuffle Map端、Shuffle Reduce端、Combiner、Combiner Example图、核心概念)、MapReduce架构(1.X、2.X)

MapReduce概述MapReduce是一个易于编写应用程序的软件框架,该应用程序以一种可靠的、容错的方式,在大型的商品硬件集群(数千个节点)上并行处理大量数据(多tb数据集)。 源自于Google的MapReduce论文,论文发表于2004年22月 Hadoop MapReduce是Google MapReduce的克隆版 MapReduce优点:海量数量离线处理&易开发&am......

[Hadoop] 分布式文件系统HDFS 三

shell、Java API

HDFS shellHDFS shell常用命令的使用官网文档参考http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#dfshdfs dfs等于hadoop fs 12345678910111213hadoop fs==> hdfs dfs [-cat [-igno......