李玉坤

基于 Binlog 实时同步数据仓库问题总结

Binlog实时采集总结原则、实现方案与具体操作、不同的业务场景[数据库分库分表的情况、数据增量采集与全量采集、离线数据去重条件]

前言可能很多人对于Binlog的认识还不是很充足，可能有些人会粗浅的认为：”它不就是mysql产生的，有固定结构的log嘛，把数据采集过来，然后把它做一下数据落地，它有什么难的呢？” 的确，它本质上确实就是个log，可是实际上，关于Binlog采集从场景分析，再到技术选型，整体内部有很多不为人知的坑，不要小瞧了它。 Binlog实时采集总结原则首先抛开技术框架的讨论，个人总结 Binlog ......

Posted by 李玉坤 on 2018-06-15

数据仓库

[ZooKeeper] ZooKeeper面试题

ZooKeeper 是什么？ ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件，分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 ZooKeeper 的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供......

Posted by 李玉坤 on 2018-06-10

面试题 ZooKeeper

[ZooKeeper] ZooKeeper实现原理

一致性问题、一致性协议和算法[2PC（两阶段提交）、3PC（三阶段提交）、Paxos 算法【prepare 阶段、accept 阶段、paxos 算法的死循环问题】]、引出 ZAB[ZAB 中的三个角色、消息广播模式、崩溃恢复模式]、Zookeeper的几个理论知识[数据模型、会话、ACL、Watcher机制]、Zookeeper的几个典型应用场景[分布式锁、命名服务、集群管理和注册中心]

ZooKeeper 由 Yahoo 开发，后来捐赠给了 Apache ，现已成为 Apache 顶级项目。ZooKeeper 是一个开源的分布式应用程序协调服务器，其为分布式系统提供一致性服务。其一致性是通过基于 Paxos 算法的 ZAB 协议完成的。其主要功能包括：配置维护、分布式同步、集群管理、分布式事务等。简单来说， ZooKeeper 是一个分布式协调服务框架。其实解释到分......

Posted by 李玉坤 on 2018-06-07

ZooKeeper

[Hive] Hive性能调优指南

性能调优的工具[善用explain语句、巧用analyze语句、常用日志分析]、设计优化[分桶表、索引、使用skewed/temporary表]、数据存储优化[压缩、存储优化]、作业优化[JVM重用、并行执行、Fetch模式、JOIN优化【map端join、Bucket map join、Sort merge bucket (SMB) join、Sort merge bucket map (SMBM) join、Skew join】、执行引擎、优化器【向量化优化器、成本优化器】]

在企业中使用Hive构建离线数仓是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据，通常对处理时间不敏感。但是在资源有限的情况下，我们需要关注Hive的性能调优，从而方便数据的快速产出。同时，关于Hive的性能调优，也是面试中比较常见的问题，因此掌握Hive性能调优的一些方法，不仅能够在工作中提升效率而且还可以在面试中脱颖而出。本文会通过四个方面介绍Hive性能调优，主......

Posted by 李玉坤 on 2018-06-03

Hive

浅谈大数据平台建设

选择机器、如何采购服务器、确定服务器、确定供应商、确定IDC机房、云专线、案例、网络拓扑图

一个公司大数据团队刚开始如何选择大数据平台落地方案选择机器云机器云上（一般是阿里云） IDC机房公司内部机器云上: 优点：节省运维成本对运维的要求很低快速扩容缩减缺点：云上服务器都是虚拟化的，性能降低 20%，云上服务器不算公司资产【小公司，不care】【公司上市，或者经投资ABCD轮，都要算公司资产】点评: 前期的支付费用缓慢型刚开始做可以使用云机器但是如果......

Posted by 李玉坤 on 2018-05-30

大数据

基于docker安装superset

更换yum源将Centos7的yum配置为阿里云的镜像（完美解决yum下载太慢的问题） 1、备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 2、下载新的CentOS-Base.repo 到/etc/yum.repos.d/ CentOS 5wget -O /etc/yum.rep......

Posted by 李玉坤 on 2018-05-24

大数据压缩

大数据压缩常用格式

1. 压缩的好处和坏处压缩技术分为有损和无损：大数据场景下我们用到的都是无损；不允许丢失数据好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度坏处由于使用数据时，需要先将数据解压，加重CPU负荷压缩在Hadoop中的应用 2. 压缩格式压缩格式工具算法扩展名 codec类多文件 splitable n......

Posted by 李玉坤 on 2018-05-20

大数据

[Kafka] Kafka分区分配策略

用过 Kafka 的同学用过都知道，每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息，我们也可能会启动多个 Consumer 去消费，而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的数据。我们又知道，Kafka 存在 Consumer Group 的概念，也就是 group.id 一样的 Consumer，这些 Co......

Posted by 李玉坤 on 2018-05-14

Kafka

Kafka 是如何保证数据可靠性和一致性

数据可靠性、数据一致性

数据可靠性Kafka 作为一个商业级消息中间件，消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及 Leader 选举几个角度介绍数据的可靠性。 Topic 分区副本在 Kafka 0.8.0 之前，Kafka 是没有副本的概念的，那时候人们只会用 Kafka 存储一些不重要的数据，因为没有副本，数据很可能会丢失。但是随着业务的发展，......

Posted by 李玉坤 on 2018-05-07

Kafka

hue-3.9-cdh-5.7.0安装

前置依赖1[root@hadoop etc]# yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-de......

Posted by 李玉坤 on 2018-05-03

Hue