李玉坤

个人博客

基于 Binlog 实时同步数据仓库问题总结

Binlog实时采集总结原则、实现方案与具体操作、不同的业务场景[数据库分库分表的情况、数据增量采集与全量采集、离线数据去重条件]

前言可能很多人对于Binlog的认识还不是很充足,可能有些人会粗浅的认为:”它不就是mysql产生的,有固定结构的log嘛,把数据采集过来,然后把它做一下数据落地,它有什么难的呢?” 的确,它本质上确实就是个log,可是实际上,关于Binlog采集从场景分析,再到技术选型,整体内部有很多不为人知的坑,不要小瞧了它。 Binlog实时采集总结原则首先抛开技术框架的讨论,个人总结 Binlog ......

[ZooKeeper] ZooKeeper面试题

ZooKeeper 是什么? ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件,分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供......

[ZooKeeper] ZooKeeper实现原理

一致性问题、一致性协议和算法[2PC(两阶段提交)、3PC(三阶段提交)、Paxos 算法【prepare 阶段、accept 阶段、paxos 算法的死循环问题】]、引出 ZAB[ZAB 中的三个角色、消息广播模式、崩溃恢复模式]、Zookeeper的几个理论知识[数据模型、会话、ACL、Watcher机制]、Zookeeper的几个典型应用场景[分布式锁、命名服务、集群管理和注册中心]

ZooKeeper 由 Yahoo 开发,后来捐赠给了 Apache ,现已成为 Apache 顶级项目。ZooKeeper 是一个开源的分布式应用程序协调服务器,其为分布式系统提供一致性服务。其一致性是通过基于 Paxos 算法的 ZAB 协议完成的。其主要功能包括:配置维护、分布式同步、集群管理、分布式事务等。 简单来说, ZooKeeper 是一个 分布式协调服务框架 。 其实解释到分......

[Hive] Hive性能调优指南

性能调优的工具[善用explain语句、巧用analyze语句、常用日志分析]、设计优化[分桶表、索引、使用skewed/temporary表]、数据存储优化[压缩、存储优化]、作业优化[JVM重用、并行执行、Fetch模式、JOIN优化【map端join、Bucket map join、Sort merge bucket (SMB) join、Sort merge bucket map (SMBM) join、Skew join】、执行引擎、优化器【向量化优化器、成本优化器】]

在企业中使用Hive构建离线数仓是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。但是在资源有限的情况下,我们需要关注Hive的性能调优,从而方便数据的快速产出。同时,关于Hive的性能调优,也是面试中比较常见的问题,因此掌握Hive性能调优的一些方法,不仅能够在工作中提升效率而且还可以在面试中脱颖而出。本文会通过四个方面介绍Hive性能调优,主......

浅谈大数据平台建设

选择机器、如何采购服务器、确定服务器、确定供应商、确定IDC机房、云专线、案例、网络拓扑图

一个公司大数据团队刚开始如何选择大数据平台落地方案 选择机器云机器云上(一般是阿里云) IDC机房 公司内部机器 云上: 优点:节省运维成本 对运维的要求很低 快速扩容 缩减 缺点:云上服务器都是虚拟化的,性能降低 20%,云上服务器不算公司资产【小公司,不care】【公司上市,或者经投资ABCD轮,都要算公司资产】 点评: 前期的支付费用缓慢型 刚开始做可以使用云机器 但是如果......

基于docker安装superset

更换yum源将Centos7的yum配置为阿里云的镜像(完美解决yum下载太慢的问题) 1、备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 2、下载新的CentOS-Base.repo 到/etc/yum.repos.d/ CentOS 5wget -O /etc/yum.rep......

大数据压缩

大数据压缩常用格式

1. 压缩的好处和坏处压缩技术分为有损和无损:大数据场景下我们用到的都是无损;不允许丢失数据 好处 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 坏处 由于使用数据时,需要先将数据解压,加重CPU负荷 压缩在Hadoop中的应用 2. 压缩格式 压缩格式 工具 算法 扩展名 codec类 多文件 splitable n......

[Kafka] Kafka分区分配策略

用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的数据。我们又知道,Kafka 存在 Consumer Group 的概念,也就是 group.id 一样的 Consumer,这些 Co......

Kafka 是如何保证数据可靠性和一致性

数据可靠性、数据一致性

数据可靠性Kafka 作为一个商业级消息中间件,消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及 Leader 选举几个角度介绍数据的可靠性。 Topic 分区副本在 Kafka 0.8.0 之前,Kafka 是没有副本的概念的,那时候人们只会用 Kafka 存储一些不重要的数据,因为没有副本,数据很可能会丢失。但是随着业务的发展,......

hue-3.9-cdh-5.7.0安装

前置依赖1[root@hadoop etc]# yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-de......
Hue