Tags - 李玉坤

大数据

computer language

Computer language comparison

面试题

SQL优化指南

[ZooKeeper] ZooKeeper面试题

[Hive] Hive面试题总结

SpringBoot

SpringBoot 中 Tomcat VS Undertow

SpringBoot中的Tomcat容器、SpringBoot设置Undertow、Tomcat与Undertow的优劣对比

Kafka

[Kafka] Kafka分区分配策略

Kafka 是如何保证数据可靠性和一致性

数据可靠性、数据一致性

[Kafka] Kafka如何将分区放置到不同的Broker中

[Kafka] Kafka Producer是如何动态感知Topic分区数变化

[Kafka] Kafka消息格式的演变

Kafka 0.7.x 消息格式、Kafka 0.8.x (0.9.x) 消息格式、Kafka 0.10.x 消息格式

[Kafka] Kafka新建的分区会在哪个目录下创建

[Kafka] Kafka的副本机制

Kafka 复制机制

[Kafka] 为Kafka集群选择合适的Topics/Partitions数量

[Kafka]03 Kafka入门三

集群搭建、Kafka 的操作、Kafka 的日志

[Kafka]01 Kafka入门一

Kafka 官网、设计目标、架构体系图、应用场景、高吞吐率原因、Kafka的优点、Kafka 于其他 MQ 对比、特性、Kafka的几种重要角色

[Kafka]02 Kafka入门二

关键术语、工作原理和过程

[Kafka]04 Kafka入门四

Kafka 原生的 API、Spring Boot 使用 Kafka

ZooKeeper

[ZooKeeper] ZooKeeper面试题

[ZooKeeper] ZooKeeper实现原理

一致性问题、一致性协议和算法[2PC（两阶段提交）、3PC（三阶段提交）、Paxos 算法【prepare 阶段、accept 阶段、paxos 算法的死循环问题】]、引出 ZAB[ZAB 中的三个角色、消息广播模式、崩溃恢复模式]、Zookeeper的几个理论知识[数据模型、会话、ACL、Watcher机制]、Zookeeper的几个典型应用场景[分布式锁、命名服务、集群管理和注册中心]

HBase

[HBase]03 HBASE进阶三

Hbase数据存储过程优化、Hbase服务端常用读写优化策略、HBase协处理器

[HBase]02 HBase原理与实战二

HBase读写流程、HBase模块之间的协作、Shell命令实战、HBase Java API、过滤器

[HBase]01 HBASE简介与环境搭建一

HBase简介、HBase在大数据生态中的位置、HBase与HDFS、HBase使用场景、Hbase数据存储模型及与关系型数据库的区别、Hbase伪分布式集群安装、Hbase基础架构、HBase特点、RowKey的设计

[HBase]04 深入了解HBase架构四

Hbase架构大全，包含组件、读写、底层原理

[HBase]05 HBase容灾与监控五

Hbase备份与恢复、CopyTable、Export/Import、Snapshot、Replication、DistCp 迁移、如何监控HBase集群、Ambari监控、Hadoop JMX监控

[HBase]06 Phoenix入门六

Phoenix简介、Phoenix安装、Phoenix使用

[HBase]07 Phoenix工具与盐表七

Phoenix如何和HBase namespace映射、dbeaver的安装配置、盐表简述

[HBase]08 Phoenix二级索引八

全局索引、本地索引

[HBase]09 Phoenix二级索引九

覆盖索引、函数索引、可变索引与不可变索引、同步索引与异步索引

Phoenix

[HBase]06 Phoenix入门六

Phoenix简介、Phoenix安装、Phoenix使用

[HBase]07 Phoenix工具与盐表七

Phoenix如何和HBase namespace映射、dbeaver的安装配置、盐表简述

[HBase]08 Phoenix二级索引八

全局索引、本地索引

[HBase]09 Phoenix二级索引九

覆盖索引、函数索引、可变索引与不可变索引、同步索引与异步索引

HDFS

[Hadoop] HDFS读写流程详解

读写流程详解、错误处理机制、优缺点

[Hadoop] 分布式文件系统HDFS 一

HDFS概述及设计目，什么是HDFS、HDFS前提和设计目标(HDFS 构成及工作原理解析，基本构成)、数据读写过程、集群架构(datanode、namenode、SecondaryNamenode)、HDFS HA简介、HDFS文件类型、HDFS副本机制

[Hadoop] 分布式文件系统HDFS 三

shell、Java API

[Hadoop] 分布式文件系统HDFS 二

HDFS环境搭建、常见问题(小文件问题、Namenode内存管理、数据迁移、数据平衡)、数据压缩、纠删码

Hadoop

[Hadoop] Hadoop离线项目整体技术

离线项目下的Hadoop生态栈、离线处理架构

[Hadoop] Hadoop离线项目之数据清洗

企业级大数据应用分类、基于Maven构建大数据开发项目、手动造数据、IDEA创建maven项目、Hive完成最基本的统计分析

[Hadoop] Hadoop配置支持LZO压缩格式

安装lzop、配置、测试

[Hadoop] Hadoop高级之HDFS&YARN HA部署

Hadoop HA搭建、问题总结

[Hadoop] number of splits 划分的条件

[Hadoop] Hadoop高级之HDFS&YARN HA架构剖析

HDFS HA、YARN HA

[Hadoop] Hadoop编译支持5种压缩格式

[Hadoop] 如何确定block损坏的位置和修复

[数据平台]04 数据平台之权限四

Hadoop/Hive自带权限控制[现有方案、Hadoop权限、Hive权限]、实操Hive的权限操作

MapReduce

[Hadoop] 分布式处理框架MapReduce 一

MapReduce概述、MapReduce计算场景、MapReduce编程模型(MapReduce编程模型之通过wordcount词频统计分析案例入门)、MapReduce Java API(MapReduce-Map、MapReduce-Reduce)、MapReduce执行步骤(整体 Example 图、Word Count Example 图、Map 数据输入、Reduce 数据输入、Word Count中的shuffle图、Shuffle、Shuffle Map端、Shuffle Reduce端、Combiner、Combiner Example图、核心概念)、MapReduce架构(1.X、2.X)

[Hadoop] 分布式处理框架MapReduce 三

参数调优(Map Task和Reduce Task数目调整)、MapReduce优点和缺点、MapReduce编程(WordCount案例开发Java版本、Combiner、Partitoner)、jobhistory开启

[Hadoop] 分布式处理框架MapReduce 二

MapReduce 源代码解析(Hadoop Mapper 定义、Hadoop Reducer 定义、Hadoop Partitioner 定义和默认实现)、MapReduce执行机制、MapReduce 容错性、数据本地性问题、参数调优

[Hadoop] 分布式处理框架MapReduce的join操作实战

Map Join的操作、Reduce Join的操作

YARN

[Hadoop] 分布式资源调度YARN 一

YARN产生背景、YARN概述、YARN架构、Yarn 基本思想、Yarn 计算资源抽象

[Hadoop] 分布式资源调度YARN 三

YARN单机环境搭建、Yarn常用命令介绍、常见基于Yarn的计算框架(MapReduce On Yarn、Spark)

[Hadoop] 分布式资源调度YARN 二

YARN资源调度流程(分步流程图、Yarn各个组件之间的心跳信号、Yarn资源隔离策略)、Yarn容错处理

[Hadoop] 分布式资源调度YARN 四

生产如何调优Container参数(container内存、container虚拟核、官方建议、综合memory+vcore、默认规则、假如该节点还有组件)、Yarn调度器和调度算法(FIFO调度器、Capacity Scheduler资源调度器、Fair Scheduler资源调度器)

Hive

[Hive] Hive性能调优指南

性能调优的工具[善用explain语句、巧用analyze语句、常用日志分析]、设计优化[分桶表、索引、使用skewed/temporary表]、数据存储优化[压缩、存储优化]、作业优化[JVM重用、并行执行、Fetch模式、JOIN优化【map端join、Bucket map join、Sort merge bucket (SMB) join、Sort merge bucket map (SMBM) join、Skew join】、执行引擎、优化器【向量化优化器、成本优化器】]

[Hive] Hive之UDF函数

自定义UDF、自定义临时函数和永久函数

[Hive] Hive的元数据

VERSION、DBS、TBLS、SDS、COLUMNS_V2、PARTITIONS

[Hive] hive中的file_format

行存储和列存储在hdfs中的区别、hive中的file_format、orc格式、parquet格式

[Hive] Hive之复杂类型

Hive复杂数据类型(array、MAP、struct)、练习

[Hive] Hive面试题总结

[数据平台]03 数据仓库之离线-Hive 三

进入命令行、常用基本命令、DDL、DML、常用函数

[数据平台]02 数据仓库之离线-Hive 二

Hive产生背景及Hive是什么、为什么要使用Hive及Hive发展历程、Hive和Hadoop对比、Hive体系架构以及部署架构、Hive和RDBMS的对比、Hive单机环境搭建、Hive执行方式

[数据平台]04 数据平台之权限四

Hadoop/Hive自带权限控制[现有方案、Hadoop权限、Hive权限]、实操Hive的权限操作

数据仓库

[Kerberos] Kerberos认证简介

Kerberos 简介、常见的认证方式、Kerberos 名词、Kerberos 流程、Kerberos 优点

[数据平台]01 数据仓库之离线一

数据仓库VS数据库[OLTP vs OLAP、数据仓库数据流程图、为什么建设数据仓库、数据仓库建设目标、如何实现]、数据分层建设[数仓建设背景、为什么进行数仓分层、STG层、ODS层、DWD层、DWS层、DIM层、DM层]

[数据平台] 离线数仓VS实时数仓

离线数仓、离线数仓架构、实时数仓、实时数仓架构、数仓架构发展、Lambda架构、Kappa架构、Kappa架构的不足、Lambda架构的不足、大公司实时数仓架构

[数据平台]03 数据仓库之离线-Hive 三

进入命令行、常用基本命令、DDL、DML、常用函数

[数据平台]02 数据仓库之离线-Hive 二

Hive产生背景及Hive是什么、为什么要使用Hive及Hive发展历程、Hive和Hadoop对比、Hive体系架构以及部署架构、Hive和RDBMS的对比、Hive单机环境搭建、Hive执行方式

基于 Binlog 实时同步数据仓库问题总结

Binlog实时采集总结原则、实现方案与具体操作、不同的业务场景[数据库分库分表的情况、数据增量采集与全量采集、离线数据去重条件]

Kerberos

[Kerberos] Kerberos认证简介

Kerberos 简介、常见的认证方式、Kerberos 名词、Kerberos 流程、Kerberos 优点

Kettle

[Kettle]03 三、输出控件

Kettle输出控件

[Kettle]01 一、入门

Kettle入门

[Kettle]02 二、输入控件

Kettle输入控件

[Kettle]04 四、kettle转换控件

kettle转换控件

[Kettle]05 五、kettle应用控件

kettle应用控件

[Kettle]06 六、kettle流程控件

kettle流程控件

[Kettle]07 七、kettle查询控件

kettle查询控件

[Kettle]08 八、kettle连接控件

kettle连接控件

[Kettle]09 九、kettle统计-映射-脚本控件

kettle统计-映射-脚本控件

Linux

[Linux]04 大数据常用命令四

调度|执行|软连接

[Linux]01 大数据常用命令一

基本操作命令

[Linux]02 大数据常用命令二

文件、用户组等内容命令

[Linux]03 大数据常用命令三

用户权限以及性能相关命令

[Linux]05 shell 脚本语法

入门、sed命令替换、awk命令取数、分割、循环、if判断、数组、传递参数、变量、shell的debug

[Linux]06 使用shell脚本发送邮件

前置条件、使用脚本发送普通邮件、带表格告警的邮件

[Linux]07 linux下NFS远程目录挂载

Scala

[Scala] Scala项目实战

项目技术概述、项目需求分析、环境搭建、代码部分

[Scala]02 Scala学习笔记

Scala模式匹配[最基础的模式匹配、加条件进行匹配、Array 模式匹配、List 模式匹配、类型匹配、异常处理、case class模式匹配、Some None模式匹配]、Scala函数高级操作[匿名函数与currying函数、高阶函数、偏函数]、隐式转换[隐式转换实战、隐式转换切面封装、隐式参数、隐式类]

[Scala]01 Scala学习笔记

scala 的下载安装、scala初体验[编译运行]、Scala入门[Scala 数据类型、lazy在Scala中的使用]、函数的定义和使用[条件表达式、循环表达式]、Scala对象[类的定义和使用、主构造器和附属构造器以及继承、抽象类、伴生类和伴生对象、cass class、Trait]、Scala 集合[数组、List、Map、Option&Some&None、Tuple]

[Scala]03 Scala学习笔记

Scala 读取文件及网络数据、Scala读取MySQL数据、Scala操作XML文件

Spark

[Spark] 遇到的Spark问题

[Spark] Spark入门

Spark简介[Spark优势、Spark组件]、Spark架构以及执行流程[Spark名词、Spark on yarn、Spark 架构简介、Spark Application、Spark执行流程、Spark执行特点]、RDD简介以及特性[RDD特性、RDD操作、RDD算子、RDD转换示例、RDD特性总结]、RDD特性总结、Stage划分、Spark三种运行模式、Spark三种模式执行流程、SparkSQL简介[DataFram简介、RDD VS DataFrame]

数据平台

[数据平台]01 数据仓库之离线一

数据仓库VS数据库[OLTP vs OLAP、数据仓库数据流程图、为什么建设数据仓库、数据仓库建设目标、如何实现]、数据分层建设[数仓建设背景、为什么进行数仓分层、STG层、ODS层、DWD层、DWS层、DIM层、DM层]

[数据平台] 离线数仓VS实时数仓

离线数仓、离线数仓架构、实时数仓、实时数仓架构、数仓架构发展、Lambda架构、Kappa架构、Kappa架构的不足、Lambda架构的不足、大公司实时数仓架构

[数据平台]03 数据仓库之离线-Hive 三

进入命令行、常用基本命令、DDL、DML、常用函数

[数据平台]02 数据仓库之离线-Hive 二

Hive产生背景及Hive是什么、为什么要使用Hive及Hive发展历程、Hive和Hadoop对比、Hive体系架构以及部署架构、Hive和RDBMS的对比、Hive单机环境搭建、Hive执行方式

[数据平台]04 数据平台之权限四

Hadoop/Hive自带权限控制[现有方案、Hadoop权限、Hive权限]、实操Hive的权限操作

[数据平台]05 数据平台之权限-Ranger 五

[数据平台]06 数据平台之数据采集与治理六

数据采集介绍、数据采集场景、数据采集系统需求、常用的数据采集工具[Sqoop、Flume、DataX]、数据治理、Apache Atlas数据治理

[数据平台]07 数据平台之调度系统

调度系统[任务处理场景、任务处理需求、调度系统功能]、常用开源调度框架对比、[Azkaban介绍、Azkaban优点、Azkaban适用场景]、Azkaban架构与调度流程[Azkaban部署模式、Azkaban执行流程图、Azkaban核心交互流程]、Azkazban安装部署[前置环境、Azkaban编译、配置azkaban数据库、部署Azkaban-Web-Server、部署Azkaban Exec Server、Azkaban示例]、Azkaban用户代理[Azkaban任务类型、Azkaban代理用户]

[数据平台]08 数据平台之SQL查询引擎

Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署

Ranger

[数据平台]05 数据平台之权限-Ranger 五

Azkaban

[数据平台]07 数据平台之调度系统

调度系统[任务处理场景、任务处理需求、调度系统功能]、常用开源调度框架对比、[Azkaban介绍、Azkaban优点、Azkaban适用场景]、Azkaban架构与调度流程[Azkaban部署模式、Azkaban执行流程图、Azkaban核心交互流程]、Azkazban安装部署[前置环境、Azkaban编译、配置azkaban数据库、部署Azkaban-Web-Server、部署Azkaban Exec Server、Azkaban示例]、Azkaban用户代理[Azkaban任务类型、Azkaban代理用户]

Presto

[数据平台]08 数据平台之SQL查询引擎

Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Airbnb 日志事件获取、Spark 的并行度由 Kafka 分区数量决定、事件的倾斜和大小不一、近实时摄取数据、解决方案

全方位测评Hive、SparkSQL、Presto等七个大数据查询引擎

测试方案测试整体方案、TPC-DS测试与单表测试方案及数据准备、测试组件介绍、性能测试分析、各组件综合分析比较

大数据压缩

大数据压缩常用格式

浅谈大数据平台建设

选择机器、如何采购服务器、确定服务器、确定供应商、确定IDC机房、云专线、案例、网络拓扑图

Computer language comparison

SQL优化指南

[ZooKeeper] ZooKeeper面试题

[Hive] Hive面试题总结

SpringBoot 中 Tomcat VS Undertow

SpringBoot中的Tomcat容器、SpringBoot设置Undertow、Tomcat与Undertow的优劣对比

[Kafka] Kafka分区分配策略

Kafka 是如何保证数据可靠性和一致性

数据可靠性、数据一致性

[Kafka] Kafka如何将分区放置到不同的Broker中

[Kafka] Kafka Producer是如何动态感知Topic分区数变化

[Kafka] Kafka消息格式的演变

Kafka 0.7.x 消息格式、Kafka 0.8.x (0.9.x) 消息格式、Kafka 0.10.x 消息格式

[Kafka] Kafka新建的分区会在哪个目录下创建

[Kafka] Kafka的副本机制

Kafka 复制机制

[Kafka] 为Kafka集群选择合适的Topics/Partitions数量

[Kafka]03 Kafka入门 三

集群搭建、Kafka 的操作、Kafka 的日志

[Kafka]01 Kafka入门 一

Kafka 官网、设计目标、架构体系图、应用场景、高吞吐率原因、Kafka的优点、Kafka 于其他 MQ 对比、特性、Kafka的几种重要角色

[Kafka]02 Kafka入门 二

关键术语、工作原理和过程

[Kafka]04 Kafka入门 四

Kafka 原生的 API、Spring Boot 使用 Kafka

[ZooKeeper] ZooKeeper面试题

[ZooKeeper] ZooKeeper实现原理

[HBase]03 HBASE进阶 三

Hbase数据存储过程优化、Hbase服务端 常用 读写 优化策略、HBase协处理器

[HBase]02 HBase原理与实战 二

HBase读写流程、HBase模块之间的协作、Shell命令实战、HBase Java API、过滤器

[HBase]01 HBASE简介与环境搭建 一

HBase简介、HBase在大数据生态中的位置、HBase与HDFS、HBase使用场景、Hbase数据存储模型及与关系型数据库的区别、Hbase伪分布式集群安装、Hbase基础架构、HBase特点、RowKey的设计

[HBase]04 深入了解HBase架构 四

Hbase架构大全，包含组件、读写、底层原理

[HBase]05 HBase容灾与监控 五

Hbase备份与恢复、CopyTable、Export/Import、Snapshot、Replication、DistCp 迁移、如何监控HBase集群、Ambari监控、Hadoop JMX监控

[HBase]06 Phoenix入门 六

Phoenix简介、Phoenix安装、Phoenix使用

[HBase]07 Phoenix工具与盐表 七

Phoenix如何和HBase namespace映射、dbeaver的安装配置、盐表简述

[HBase]08 Phoenix二级索引 八

全局索引、本地索引

[HBase]09 Phoenix二级索引 九

覆盖索引、函数索引、可变索引与不可变索引、同步索引与异步索引

[HBase]06 Phoenix入门 六

Phoenix简介、Phoenix安装、Phoenix使用

[HBase]07 Phoenix工具与盐表 七

Phoenix如何和HBase namespace映射、dbeaver的安装配置、盐表简述

[HBase]08 Phoenix二级索引 八

全局索引、本地索引

[HBase]09 Phoenix二级索引 九

覆盖索引、函数索引、可变索引与不可变索引、同步索引与异步索引

[Hadoop] HDFS读写流程详解

读写流程详解、错误处理机制、优缺点

[Hadoop] 分布式文件系统HDFS 一

HDFS概述及设计目，什么是HDFS、HDFS前提和设计目标(HDFS 构成及工作原理解析，基本构成)、数据读写过程、集群架构(datanode、namenode、SecondaryNamenode)、HDFS HA简介、HDFS文件类型、HDFS副本机制

[Hadoop] 分布式文件系统HDFS 三

shell、Java API

[Hadoop] 分布式文件系统HDFS 二

HDFS环境搭建、常见问题(小文件问题、Namenode内存管理、数据迁移、数据平衡)、数据压缩、纠删码

[Hadoop] Hadoop离线项目整体技术

离线项目下的Hadoop生态栈、离线处理架构

[Hadoop] Hadoop离线项目之数据清洗

企业级大数据应用分类、基于Maven构建大数据开发项目、手动造数据、IDEA创建maven项目、Hive完成最基本的统计分析

[Hadoop] Hadoop配置支持LZO压缩格式

安装lzop、配置、测试

[Hadoop] Hadoop高级之HDFS&YARN HA部署

Hadoop HA搭建、问题总结

[Hadoop] number of splits 划分的条件

[Hadoop] Hadoop高级之HDFS&YARN HA架构剖析

HDFS HA、YARN HA

[Kafka]03 Kafka入门三

[Kafka]01 Kafka入门一

[Kafka]02 Kafka入门二

[Kafka]04 Kafka入门四

[HBase]03 HBASE进阶三

Hbase数据存储过程优化、Hbase服务端常用读写优化策略、HBase协处理器

[HBase]02 HBase原理与实战二

[HBase]01 HBASE简介与环境搭建一

[HBase]04 深入了解HBase架构四

[HBase]05 HBase容灾与监控五

[HBase]06 Phoenix入门六

[HBase]07 Phoenix工具与盐表七

[HBase]08 Phoenix二级索引八

[HBase]09 Phoenix二级索引九

[HBase]06 Phoenix入门六

[HBase]07 Phoenix工具与盐表七

[HBase]08 Phoenix二级索引八

[HBase]09 Phoenix二级索引九

[数据平台]04 数据平台之权限四

[数据平台]04 数据平台之权限四

[数据平台]01 数据仓库之离线一