Tags
Hey, this is Tags.
Toggle navigation
李玉坤
Home
About
Archives
Tags
大数据
computer language
面试题
SpringBoot
Kafka
ZooKeeper
HBase
Phoenix
HDFS
Hadoop
MapReduce
YARN
Hive
数据仓库
Kerberos
Kettle
Linux
Scala
Spark
数据平台
Ranger
Azkaban
Presto
Hue
Java
Json
大数据
Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的
Airbnb 日志事件获取、Spark 的并行度由 Kafka 分区数量决定、事件的倾斜和大小不一、近实时摄取数据、解决方案
全方位测评Hive、SparkSQL、Presto等七个大数据查询引擎
测试方案测试整体方案、TPC-DS测试与单表测试方案及数据准备、测试组件介绍、性能测试分析、各组件综合分析比较
大数据压缩
大数据压缩常用格式
浅谈大数据平台建设
选择机器、如何采购服务器、确定服务器、确定供应商、确定IDC机房、云专线、案例、网络拓扑图
computer language
Computer language comparison
面试题
SQL优化指南
[ZooKeeper] ZooKeeper面试题
[Hive] Hive面试题总结
SpringBoot
SpringBoot 中 Tomcat VS Undertow
SpringBoot中的Tomcat容器、SpringBoot设置Undertow、Tomcat与Undertow的优劣对比
Kafka
[Kafka] Kafka分区分配策略
Kafka 是如何保证数据可靠性和一致性
数据可靠性、数据一致性
[Kafka] Kafka如何将分区放置到不同的Broker中
[Kafka] Kafka Producer是如何动态感知Topic分区数变化
[Kafka] Kafka消息格式的演变
Kafka 0.7.x 消息格式、Kafka 0.8.x (0.9.x) 消息格式、Kafka 0.10.x 消息格式
[Kafka] Kafka新建的分区会在哪个目录下创建
[Kafka] Kafka的副本机制
Kafka 复制机制
[Kafka] 为Kafka集群选择合适的Topics/Partitions数量
[Kafka]03 Kafka入门 三
集群搭建、Kafka 的操作、Kafka 的日志
[Kafka]01 Kafka入门 一
Kafka 官网、设计目标、架构体系图、应用场景、高吞吐率原因、Kafka的优点、Kafka 于其他 MQ 对比、特性、Kafka的几种重要角色
[Kafka]02 Kafka入门 二
关键术语、工作原理和过程
[Kafka]04 Kafka入门 四
Kafka 原生的 API、Spring Boot 使用 Kafka
ZooKeeper
[ZooKeeper] ZooKeeper面试题
[ZooKeeper] ZooKeeper实现原理
一致性问题、一致性协议和算法[2PC(两阶段提交)、3PC(三阶段提交)、Paxos 算法【prepare 阶段、accept 阶段、paxos 算法的死循环问题】]、引出 ZAB[ZAB 中的三个角色、消息广播模式、崩溃恢复模式]、Zookeeper的几个理论知识[数据模型、会话、ACL、Watcher机制]、Zookeeper的几个典型应用场景[分布式锁、命名服务、集群管理和注册中心]
HBase
[HBase]03 HBASE进阶 三
Hbase数据存储过程优化、Hbase服务端 常用 读写 优化策略、HBase协处理器
[HBase]02 HBase原理与实战 二
HBase读写流程、HBase模块之间的协作、Shell命令实战、HBase Java API、过滤器
[HBase]01 HBASE简介与环境搭建 一
HBase简介、HBase在大数据生态中的位置、HBase与HDFS、HBase使用场景、Hbase数据存储模型及与关系型数据库的区别、Hbase伪分布式集群安装、Hbase基础架构、HBase特点、RowKey的设计
[HBase]04 深入了解HBase架构 四
Hbase架构大全,包含组件、读写、底层原理
[HBase]05 HBase容灾与监控 五
Hbase备份与恢复、CopyTable、Export/Import、Snapshot、Replication、DistCp 迁移、如何监控HBase集群、Ambari监控、Hadoop JMX监控
[HBase]06 Phoenix入门 六
Phoenix简介、Phoenix安装、Phoenix使用
[HBase]07 Phoenix工具与盐表 七
Phoenix如何和HBase namespace映射、dbeaver的安装配置、盐表简述
[HBase]08 Phoenix二级索引 八
全局索引、本地索引
[HBase]09 Phoenix二级索引 九
覆盖索引、函数索引、可变索引与不可变索引、同步索引与异步索引
Phoenix
[HBase]06 Phoenix入门 六
Phoenix简介、Phoenix安装、Phoenix使用
[HBase]07 Phoenix工具与盐表 七
Phoenix如何和HBase namespace映射、dbeaver的安装配置、盐表简述
[HBase]08 Phoenix二级索引 八
全局索引、本地索引
[HBase]09 Phoenix二级索引 九
覆盖索引、函数索引、可变索引与不可变索引、同步索引与异步索引
HDFS
[Hadoop] HDFS读写流程详解
读写流程详解、错误处理机制、优缺点
[Hadoop] 分布式文件系统HDFS 一
HDFS概述及设计目,什么是HDFS、HDFS前提和设计目标(HDFS 构成及工作原理解析,基本构成)、数据读写过程、集群架构(datanode、namenode、SecondaryNamenode)、HDFS HA简介、HDFS文件类型、HDFS副本机制
[Hadoop] 分布式文件系统HDFS 三
shell、Java API
[Hadoop] 分布式文件系统HDFS 二
HDFS环境搭建、常见问题(小文件问题、Namenode内存管理、数据迁移、数据平衡)、数据压缩、纠删码
Hadoop
[Hadoop] Hadoop离线项目整体技术
离线项目下的Hadoop生态栈、离线处理架构
[Hadoop] Hadoop离线项目之数据清洗
企业级大数据应用分类、基于Maven构建大数据开发项目、手动造数据、IDEA创建maven项目、Hive完成最基本的统计分析
[Hadoop] Hadoop配置支持LZO压缩格式
安装lzop、配置、测试
[Hadoop] Hadoop高级之HDFS&YARN HA部署
Hadoop HA搭建、问题总结
[Hadoop] number of splits 划分的条件
[Hadoop] Hadoop高级之HDFS&YARN HA架构剖析
HDFS HA、YARN HA
[Hadoop] Hadoop编译支持5种压缩格式
[Hadoop] 如何确定block损坏的位置和修复
[数据平台]04 数据平台之权限 四
Hadoop/Hive自带权限控制[现有方案、Hadoop权限、Hive权限]、实操Hive的权限操作
MapReduce
[Hadoop] 分布式处理框架MapReduce 一
MapReduce概述、MapReduce计算场景、MapReduce编程模型(MapReduce编程模型之通过wordcount词频统计分析案例入门)、MapReduce Java API(MapReduce-Map、MapReduce-Reduce)、MapReduce执行步骤(整体 Example 图、Word Count Example 图、Map 数据输入、Reduce 数据输入、Word Count中的shuffle图、Shuffle、Shuffle Map端、Shuffle Reduce端、Combiner、Combiner Example图、核心概念)、MapReduce架构(1.X、2.X)
[Hadoop] 分布式处理框架MapReduce 三
参数调优(Map Task和Reduce Task数目调整)、MapReduce优点和缺点、MapReduce编程(WordCount案例开发Java版本、Combiner、Partitoner)、jobhistory开启
[Hadoop] 分布式处理框架MapReduce 二
MapReduce 源代码解析(Hadoop Mapper 定义、Hadoop Reducer 定义、Hadoop Partitioner 定义和默认实现)、MapReduce执行机制、MapReduce 容错性、数据本地性问题、参数调优
[Hadoop] 分布式处理框架MapReduce的join操作实战
Map Join的操作、Reduce Join的操作
YARN
[Hadoop] 分布式资源调度YARN 一
YARN产生背景、YARN概述、YARN架构、Yarn 基本思想、Yarn 计算资源抽象
[Hadoop] 分布式资源调度YARN 三
YARN单机环境搭建、Yarn常用命令介绍、常见基于Yarn的计算框架(MapReduce On Yarn、Spark)
[Hadoop] 分布式资源调度YARN 二
YARN资源调度流程(分步流程图、Yarn各个组件之间的心跳信号、Yarn资源隔离策略)、Yarn容错处理
[Hadoop] 分布式资源调度YARN 四
生产如何调优Container参数(container内存、container虚拟核、官方建议、综合memory+vcore、默认规则、假如该节点还有组件)、Yarn调度器和调度算法(FIFO调度器、Capacity Scheduler资源调度器、Fair Scheduler资源调度器)
Hive
[Hive] Hive性能调优指南
性能调优的工具[善用explain语句、巧用analyze语句、常用日志分析]、设计优化[分桶表、索引、使用skewed/temporary表]、数据存储优化[压缩、存储优化]、作业优化[JVM重用、并行执行、Fetch模式、JOIN优化【map端join、Bucket map join、Sort merge bucket (SMB) join、Sort merge bucket map (SMBM) join、Skew join】、执行引擎、优化器【向量化优化器、成本优化器】]
[Hive] Hive之UDF函数
自定义UDF、自定义临时函数和永久函数
[Hive] Hive的元数据
VERSION、DBS、TBLS、SDS、COLUMNS_V2、PARTITIONS
[Hive] hive中的file_format
行存储和列存储在hdfs中的区别、hive中的file_format、orc格式、parquet格式
[Hive] Hive之复杂类型
Hive复杂数据类型(array
、MAP、struct)、练习
[Hive] Hive面试题总结
[数据平台]03 数据仓库之离线-Hive 三
进入命令行、常用基本命令、DDL、DML、常用函数
[数据平台]02 数据仓库之离线-Hive 二
Hive产生背景及Hive是什么、为什么要使用Hive及Hive发展历程、Hive和Hadoop对比、Hive体系架构以及部署架构、Hive和RDBMS的对比、Hive单机环境搭建、Hive执行方式
[数据平台]04 数据平台之权限 四
Hadoop/Hive自带权限控制[现有方案、Hadoop权限、Hive权限]、实操Hive的权限操作
数据仓库
[Kerberos] Kerberos认证简介
Kerberos 简介、常见的认证方式、Kerberos 名词、Kerberos 流程、Kerberos 优点
[数据平台]01 数据仓库之离线 一
数据仓库VS数据库[OLTP vs OLAP、数据仓库数据流程图、为什么建设数据仓库、数据仓库建设目标、如何实现]、数据分层建设[数仓建设背景、为什么进行数仓分层、STG层、ODS层、DWD层、DWS层、DIM层、DM层]
[数据平台] 离线数仓VS实时数仓
离线数仓、离线数仓架构、实时数仓、实时数仓架构、数仓架构发展、Lambda架构、Kappa架构、Kappa架构的不足、Lambda架构的不足、大公司实时数仓架构
[数据平台]03 数据仓库之离线-Hive 三
进入命令行、常用基本命令、DDL、DML、常用函数
[数据平台]02 数据仓库之离线-Hive 二
Hive产生背景及Hive是什么、为什么要使用Hive及Hive发展历程、Hive和Hadoop对比、Hive体系架构以及部署架构、Hive和RDBMS的对比、Hive单机环境搭建、Hive执行方式
基于 Binlog 实时同步数据仓库问题总结
Binlog实时采集总结原则、实现方案与具体操作、不同的业务场景[数据库分库分表的情况、数据增量采集与全量采集、离线数据去重条件]
Kerberos
[Kerberos] Kerberos认证简介
Kerberos 简介、常见的认证方式、Kerberos 名词、Kerberos 流程、Kerberos 优点
Kettle
[Kettle]03 三、输出控件
Kettle输出控件
[Kettle]01 一、入门
Kettle入门
[Kettle]02 二、输入控件
Kettle输入控件
[Kettle]04 四、kettle转换控件
kettle转换控件
[Kettle]05 五、kettle应用控件
kettle应用控件
[Kettle]06 六、kettle流程控件
kettle流程控件
[Kettle]07 七、kettle查询控件
kettle查询控件
[Kettle]08 八、kettle连接控件
kettle连接控件
[Kettle]09 九、kettle统计-映射-脚本控件
kettle统计-映射-脚本控件
Linux
[Linux]04 大数据常用命令 四
调度|执行|软连接
[Linux]01 大数据常用命令 一
基本操作命令
[Linux]02 大数据常用命令 二
文件、用户组等内容命令
[Linux]03 大数据常用命令 三
用户权限以及性能相关命令
[Linux]05 shell 脚本语法
入门、sed命令 替换、awk命令 取数、分割、循环、if判断、数组、传递参数、变量、shell的debug
[Linux]06 使用shell脚本发送邮件
前置条件、使用脚本发送普通邮件、带表格告警的邮件
[Linux]07 linux下NFS远程目录挂载
Scala
[Scala] Scala项目实战
项目技术概述、项目需求分析、环境搭建、代码部分
[Scala]02 Scala学习笔记
Scala模式匹配[最基础的模式匹配、加条件进行匹配、Array 模式匹配、List 模式匹配、类型匹配、异常处理、case class模式匹配、Some None模式匹配]、Scala函数高级操作[匿名函数与currying函数、高阶函数、偏函数]、隐式转换[隐式转换实战、隐式转换切面封装、隐式参数、隐式类]
[Scala]01 Scala学习笔记
scala 的下载安装、scala初体验[编译运行]、Scala入门[Scala 数据类型、lazy在Scala中的使用]、函数的定义和使用[条件表达式、循环表达式]、Scala对象[类的定义和使用、主构造器和附属构造器以及继承、抽象类、伴生类和伴生对象、cass class、Trait]、Scala 集合[数组、List、Map、Option&Some&None、Tuple]
[Scala]03 Scala学习笔记
Scala 读取文件及网络数据、Scala读取MySQL数据、Scala操作XML文件
Spark
[Spark] 遇到的Spark问题
[Spark] Spark入门
Spark简介[Spark优势、Spark组件]、Spark架构以及执行流程[Spark名词、Spark on yarn、Spark 架构简介、Spark Application、Spark执行流程、Spark执行特点]、RDD简介以及特性[RDD特性、RDD操作、RDD算子、RDD转换示例、RDD特性总结]、RDD特性总结、Stage划分、Spark三种运行模式、Spark三种模式执行流程、SparkSQL简介[DataFram简介、RDD VS DataFrame]
数据平台
[数据平台]01 数据仓库之离线 一
数据仓库VS数据库[OLTP vs OLAP、数据仓库数据流程图、为什么建设数据仓库、数据仓库建设目标、如何实现]、数据分层建设[数仓建设背景、为什么进行数仓分层、STG层、ODS层、DWD层、DWS层、DIM层、DM层]
[数据平台] 离线数仓VS实时数仓
离线数仓、离线数仓架构、实时数仓、实时数仓架构、数仓架构发展、Lambda架构、Kappa架构、Kappa架构的不足、Lambda架构的不足、大公司实时数仓架构
[数据平台]03 数据仓库之离线-Hive 三
进入命令行、常用基本命令、DDL、DML、常用函数
[数据平台]02 数据仓库之离线-Hive 二
Hive产生背景及Hive是什么、为什么要使用Hive及Hive发展历程、Hive和Hadoop对比、Hive体系架构以及部署架构、Hive和RDBMS的对比、Hive单机环境搭建、Hive执行方式
[数据平台]04 数据平台之权限 四
Hadoop/Hive自带权限控制[现有方案、Hadoop权限、Hive权限]、实操Hive的权限操作
[数据平台]05 数据平台之权限-Ranger 五
[数据平台]06 数据平台之数据采集与治理 六
数据采集介绍、数据采集场景、数据采集系统需求、常用的数据采集工具[Sqoop、Flume、DataX]、数据治理、Apache Atlas数据治理
[数据平台]07 数据平台之调度系统
调度系统[任务处理场景、任务处理需求、调度系统功能]、常用开源调度框架对比、[Azkaban介绍、Azkaban优点、Azkaban适用场景]、Azkaban架构与调度流程[Azkaban部署模式、Azkaban执行流程图、Azkaban核心交互流程]、Azkazban安装部署[前置环境、Azkaban编译、配置azkaban数据库、部署Azkaban-Web-Server、部署Azkaban Exec Server、Azkaban示例]、Azkaban用户代理[Azkaban任务类型、Azkaban代理用户]
[数据平台]08 数据平台之SQL查询引擎
Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署
Ranger
[数据平台]05 数据平台之权限-Ranger 五
Azkaban
[数据平台]07 数据平台之调度系统
调度系统[任务处理场景、任务处理需求、调度系统功能]、常用开源调度框架对比、[Azkaban介绍、Azkaban优点、Azkaban适用场景]、Azkaban架构与调度流程[Azkaban部署模式、Azkaban执行流程图、Azkaban核心交互流程]、Azkazban安装部署[前置环境、Azkaban编译、配置azkaban数据库、部署Azkaban-Web-Server、部署Azkaban Exec Server、Azkaban示例]、Azkaban用户代理[Azkaban任务类型、Azkaban代理用户]
Presto
[数据平台]08 数据平台之SQL查询引擎
Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署
Hue
hue-3.9-cdh-5.7.0安装
Java
各个JSON技术的简介和优劣
HDFS文件判断是否存在
Json
各个JSON技术的简介和优劣
HDFS文件判断是否存在