李玉坤

[HBase]02 HBase原理与实战二

HBase读写流程、HBase模块之间的协作、Shell命令实战、HBase Java API、过滤器

HBase写流程存储结构介绍 RegionServer管理着多个region；每个RegionServer都有对应的HLog实例 region是Hbase存储的单元，数据都存在region中，需要注意的是每一个region只存储一个column family的数据而且只是这个列族的一部分；当region达到一定的大小之后会根据rowkey的排序划分为多个region；每个region里面包......

Posted by 李玉坤 on 2017-09-20

HBase

[HBase]01 HBASE简介与环境搭建一

HBase简介、HBase在大数据生态中的位置、HBase与HDFS、HBase使用场景、Hbase数据存储模型及与关系型数据库的区别、Hbase伪分布式集群安装、Hbase基础架构、HBase特点、RowKey的设计

HBase简介及其在大数据生态圈的位置HBase简介Apache HBase™是Hadoop数据库、分布式、可扩展、大数据存储。使用Apache HBase™当你需要随机的,实时的大数据的读/写访问。这个项目的目标是在商品硬件集群上托管非常大的表——数十亿行X数百万列。Apache HBase是一个开源的、分布式的、版本化的、非关系型的数据库，模仿了谷歌的Bigtable: Chang等人......

Posted by 李玉坤 on 2017-09-14

HBase

[Hadoop] 如何确定block损坏的位置和修复

hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行，普通用户无权限。 1234567891011121314151617181920212223242526272829303132[hadoop@hadoop ~]......

Posted by 李玉坤 on 2017-09-07

Hadoop

[Hadoop] 分布式处理框架MapReduce的join操作实战

Map Join的操作、Reduce Join的操作

Map Join的操作map类 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475package com.kun.map_join;import org.apac......

Posted by 李玉坤 on 2017-09-02

MapReduce

[Hadoop] number of splits 划分的条件

split：split是逻辑切片，在mapreduce中的map task开始之前，将文件按照指定的大小切割成若干个部分，每一部分称为一个split，默认是split的大小与block的大小相等，均为128MB。split大小由minSize、minSize、blocksize决定，以wordcount代码为例找到 job.waitForCompletion( true);进入waitFo......

Posted by 李玉坤 on 2017-08-30

Hadoop

[Hadoop] HDFS读写流程详解

读写流程详解、错误处理机制、优缺点

HDFS文件读写流程详解首先看看出场的角色，第一个是client客户端，用来发起读写请求，读取HDFS上的文件或往HDFS中写文件；第二个是Namenode，唯一的一个，会协调所有客户端发起的请求；第三个是DataNode，负责数据存储，跟Namenode不一样，DataNode有很多个，有时候能达到数以千计。文件写流程图解往HDFS中写数据的流程如下：第1幅图：我们跟客户端说，你帮我......

Posted by 李玉坤 on 2017-08-24

HDFS

[Hadoop] Hadoop配置支持LZO压缩格式

安装lzop、配置、测试

简介安装lzolzo并不是linux系统原生支持，所以需要下载安装软件包。这里至少需要安装3个软件包：lzo, lzop, hadoop-gpl-packaging。增加索引gpl-packaging的作用主要是对压缩的lzo文件创建索引，否则的话，无论压缩文件是否大于hdfs的block大小，都只会按照默认启动2个map操作。安装lzop native library123456789......

Posted by 李玉坤 on 2017-08-20

Hadoop

[Hadoop] Hadoop离线项目之数据清洗

企业级大数据应用分类、基于Maven构建大数据开发项目、手动造数据、IDEA创建maven项目、Hive完成最基本的统计分析

企业级大数据项目开发流程项目调研：技术？业务？【对业务很了解】产品经理、非常熟悉业务、项目经理需求分析：明确做什么做成什么样子的（做东西不要局限于某个技术）用户提出来的：显示【实现较为简单】隐式的需要自己来实现方案设计概念设计（模块，模块中有哪些功能点）【国内一般都是后补详细设计也就是设计文档】......

Posted by 李玉坤 on 2017-08-14

Hadoop

[Hadoop] Hadoop离线项目整体技术

离线项目下的Hadoop生态栈、离线处理架构

离线项目下的Hadoop生态栈Hadoop生态离线项目 Hadoop：（无论什么大数据项目Hadoop是少不了的） HDFS MapReduce(主要是做清洗) YARN （大数据项目基本都是跑在yarn资源框架上） Hadoop集群 Hive：（主要是做计算）外部表（会使用） SQL （会使用）数据......

Posted by 李玉坤 on 2017-08-10

Hadoop

[Hadoop] Hadoop高级之HDFS&YARN HA架构剖析

HDFS HA、YARN HA

HDFS HA1、为什么要用集群学习过程中我们只需要单点就够了我们在企业中大数据几乎所有组建都是主从架构 master-slave比如hdfs读写请求都是先NN节点；但是:hbase 读写请求不是经过老大master 企业里面，伪分布式每一个角色都是1个进程HDFS:NN 老大 master 【假如master挂了，所有与nn交互的任务都会中断】SNN 1h checkpoint ......

Posted by 李玉坤 on 2017-08-06

Hadoop

[HBase]02 HBase原理与实战二

HBase读写流程、HBase模块之间的协作、Shell命令实战、HBase Java API、过滤器

[HBase]01 HBASE简介与环境搭建一

HBase简介、HBase在大数据生态中的位置、HBase与HDFS、HBase使用场景、Hbase数据存储模型及与关系型数据库的区别、Hbase伪分布式集群安装、Hbase基础架构、HBase特点、RowKey的设计

[Hadoop] 如何确定block损坏的位置和修复

[Hadoop] 分布式处理框架MapReduce的join操作实战

Map Join的操作、Reduce Join的操作

[Hadoop] number of splits 划分的条件

[Hadoop] HDFS读写流程详解

读写流程详解、错误处理机制、优缺点

[Hadoop] Hadoop配置支持LZO压缩格式

安装lzop、配置、测试

[Hadoop] Hadoop离线项目之数据清洗

企业级大数据应用分类、基于Maven构建大数据开发项目、手动造数据、IDEA创建maven项目、Hive完成最基本的统计分析

[Hadoop] Hadoop离线项目整体技术

离线项目下的Hadoop生态栈、离线处理架构

[Hadoop] Hadoop高级之HDFS&YARN HA架构剖析

HDFS HA、YARN HA

FEATURED TAGS

ABOUT ME

RECENT POSTS

ARCHIVES

[HBase]02 HBase原理与实战 二

HBase读写流程、HBase模块之间的协作、Shell命令实战、HBase Java API、过滤器

[HBase]01 HBASE简介与环境搭建 一

HBase简介、HBase在大数据生态中的位置、HBase与HDFS、HBase使用场景、Hbase数据存储模型及与关系型数据库的区别、Hbase伪分布式集群安装、Hbase基础架构、HBase特点、RowKey的设计

[Hadoop] 如何确定block损坏的位置和修复

[Hadoop] 分布式处理框架MapReduce的join操作实战

Map Join的操作、Reduce Join的操作

[Hadoop] number of splits 划分的条件

[Hadoop] HDFS读写流程详解

读写流程详解、错误处理机制、优缺点

[Hadoop] Hadoop配置支持LZO压缩格式

安装lzop、配置、测试

[Hadoop] Hadoop离线项目之数据清洗

企业级大数据应用分类、基于Maven构建大数据开发项目、手动造数据、IDEA创建maven项目、Hive完成最基本的统计分析

[Hadoop] Hadoop离线项目整体技术

离线项目下的Hadoop生态栈、离线处理架构

[Hadoop] Hadoop高级之HDFS&YARN HA架构剖析

HDFS HA、YARN HA

FEATURED TAGS

ABOUT ME

RECENT POSTS

ARCHIVES

[HBase]02 HBase原理与实战二

[HBase]01 HBASE简介与环境搭建一