李玉坤

个人博客

[HBase]02 HBase原理与实战 二

HBase读写流程、HBase模块之间的协作、Shell命令实战、HBase Java API、过滤器

HBase写流程存储结构介绍 RegionServer管理着多个region;每个RegionServer都有对应的HLog实例 region是Hbase存储的单元,数据都存在region中,需要注意的是每一个region只存储一个column family的数据而且只是这个列族的一部分;当region达到一定的大小之后会根据rowkey的排序划分为多个region;每个region里面包......

[HBase]01 HBASE简介与环境搭建 一

HBase简介、HBase在大数据生态中的位置、HBase与HDFS、HBase使用场景、Hbase数据存储模型及与关系型数据库的区别、Hbase伪分布式集群安装、Hbase基础架构、HBase特点、RowKey的设计

HBase简介及其在大数据生态圈的位置HBase简介Apache HBase™是Hadoop数据库、分布式、可扩展、大数据存储。 使用Apache HBase™当你需要随机的,实时的大数据的读/写访问。这个项目的目标是在商品硬件集群上托管非常大的表——数十亿行X数百万列。Apache HBase是一个开源的、分布式的、版本化的、非关系型的数据库,模仿了谷歌的Bigtable: Chang等人......

[Hadoop] 如何确定block损坏的位置和修复

hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。 1234567891011121314151617181920212223242526272829303132[hadoop@hadoop ~]......

[Hadoop] 分布式处理框架MapReduce的join操作实战

Map Join的操作、Reduce Join的操作

Map Join的操作map类 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475package com.kun.map_join;import org.apac......

[Hadoop] number of splits 划分的条件

split:split是逻辑切片,在mapreduce中的map task开始之前,将文件按照指定的大小切割成若干个部分,每一部分称为一个split,默认是split的大小与block的大小相等,均为128MB。split大小由minSize、minSize、blocksize决定,以wordcount代码为例 找到 job.waitForCompletion( true);进入waitFo......

[Hadoop] HDFS读写流程详解

读写流程详解、错误处理机制、优缺点

HDFS文件读写流程详解首先看看出场的角色,第一个是client客户端,用来发起读写请求,读取HDFS上的文件或往HDFS中写文件;第二个是Namenode,唯一的一个,会协调所有客户端发起的请求;第三个是DataNode,负责数据存储,跟Namenode不一样,DataNode有很多个,有时候能达到数以千计。 文件写流程图解往HDFS中写数据的流程如下: 第1幅图:我们跟客户端说,你帮我......

[Hadoop] Hadoop配置支持LZO压缩格式

安装lzop、配置、测试

简介安装lzolzo并不是linux系统原生支持,所以需要下载安装软件包。这里至少需要安装3个软件包:lzo, lzop, hadoop-gpl-packaging。 增加索引gpl-packaging的作用主要是对压缩的lzo文件创建索引,否则的话,无论压缩文件是否大于hdfs的block大小,都只会按照默认启动2个map操作。 安装lzop native library123456789......

[Hadoop] Hadoop离线项目之数据清洗

企业级大数据应用分类、基于Maven构建大数据开发项目、手动造数据、IDEA创建maven项目、Hive完成最基本的统计分析

企业级大数据项目开发流程 项目调研:技术?业务?【对业务很了解】 产品经理、非常熟悉业务、项目经理 需求分析:明确做什么 做成什么样子的(做东西不要局限于某个技术) 用户提出来的:显示【实现较为简单】 隐式的需要自己来实现 方案设计 概念设计(模块,模块中有哪些功能点)【国内一般都是后补详细设计也就是设计文档】......

[Hadoop] Hadoop离线项目整体技术

离线项目下的Hadoop生态栈、离线处理架构

离线项目下的Hadoop生态栈Hadoop生态离线项目 Hadoop:(无论什么大数据项目Hadoop是少不了的) HDFS MapReduce(主要是做清洗) YARN (大数据项目基本都是跑在yarn资源框架上) Hadoop集群 Hive:(主要是做计算) 外部表 (会使用) SQL (会使用) 数据......

[Hadoop] Hadoop高级之HDFS&YARN HA架构剖析

HDFS HA、YARN HA

HDFS HA1、为什么要用集群学习过程中我们只需要单点就够了 我们在企业中大数据几乎所有组建都是主从架构 master-slave比如hdfs读写请求都是先NN节点;但是:hbase 读写请求不是经过老大master 企业里面,伪分布式 每一个角色都是1个进程HDFS:NN 老大 master 【假如master挂了,所有与nn交互的任务都会中断】SNN 1h checkpoint ......