李玉坤

[Linux]07 linux下NFS远程目录挂载

NFS 是Network File System的缩写，中文意思是网络文件系统。它的主要功能是通过网络（一般是局域网）让不同的主机系统之间可以共享文件或目录。NFS客户端（一般为应用服务器，例如web）可以通过挂载（mount）的方式将NFS服务器端共享的数据目录挂载到NFS客户端本地系统中（就是某一个挂载点下）。从客户端本地看，NFS服务器端共享的目录就好像是客户端自己的磁盘分区或者目录一......

Posted by 李玉坤 on 2018-07-29

Linux

[数据平台]08 数据平台之SQL查询引擎

Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署

Presto简介SQL on Hadoop Hive的出现让技术人员可以通过类SQL的方式对批量数据进行查询,而不用开发MapReduce程序 MapReduce计算过程中大量的中间结果磁盘落地使运行效率较低为了提高SQL on Hadoop的效率,各大工具应运而生,比如Shark, Impala等 Presto是什么Presto是由Facebook开发的分布式SQL查询引擎,用来进行高速......

Posted by 李玉坤 on 2018-07-25

数据平台 Presto

[Spark] 遇到的Spark问题

1、ERROR cluster.YarnClientSchedulerBackend: The YARN application has already ended! It might have been killed or the Application Master may have failed to start. Check the YARN application logs for......

Posted by 李玉坤 on 2018-07-20

Spark

全方位测评Hive、SparkSQL、Presto等七个大数据查询引擎

测试方案测试整体方案、TPC-DS测试与单表测试方案及数据准备、测试组件介绍、性能测试分析、各组件综合分析比较

现在大数据组件非常多，众说不一，那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢？易观Spark实战营团队选取了Hive、SparkSQL、Presto、Impala、HAWQ、ClickHouse、Greenplum七个大数据查询引擎，在原生推荐配置情况下，在不同场景下做一次横向对比，出品了一份开源OLAP引擎测评报告。测试方案测试整体方案本次测试针对现有Olap的7大Sql引擎Ha......

Posted by 李玉坤 on 2018-07-17

大数据

[Spark] Spark入门

Spark简介[Spark优势、Spark组件]、Spark架构以及执行流程[Spark名词、Spark on yarn、Spark 架构简介、Spark Application、Spark执行流程、Spark执行特点]、RDD简介以及特性[RDD特性、RDD操作、RDD算子、RDD转换示例、RDD特性总结]、RDD特性总结、Stage划分、Spark三种运行模式、Spark三种模式执行流程、SparkSQL简介[DataFram简介、RDD VS DataFrame]

Spark简介Spark是一个高性能的、多用途的开源集群计算框架 Spark是Apache基金会最重要的项目之一,是现在大数据领域最热门的大数据计算平台之一 Spark不仅具备Hadoop MapReduce的优 ,且解决了MapReduce的缺陷 Spark优势支持多种数据源，如HDFS、 S3、JDBC等支持多种运行模式，如Local, Standalone,Cluster 包含多个......

Posted by 李玉坤 on 2018-07-13

Spark

各个JSON技术的简介和优劣

HDFS文件判断是否存在

json-libjson-lib最开始的也是应用最广泛的json解析工具，json-lib 不好的地方确实是依赖于很多第三方包，包括commons-beanutils.jar，commons-collections-3.2.jar，commons-lang-2.6.jar，commons-logging-1.1.1.jar，ezmorph-1.0.6.jar，对于复杂类型的转换，json-......

Posted by 李玉坤 on 2018-07-08

Java Json

[数据平台]07 数据平台之调度系统

调度系统[任务处理场景、任务处理需求、调度系统功能]、常用开源调度框架对比、[Azkaban介绍、Azkaban优点、Azkaban适用场景]、Azkaban架构与调度流程[Azkaban部署模式、Azkaban执行流程图、Azkaban核心交互流程]、Azkazban安装部署[前置环境、Azkaban编译、配置azkaban数据库、部署Azkaban-Web-Server、部署Azkaban Exec Server、Azkaban示例]、Azkaban用户代理[Azkaban任务类型、Azkaban代理用户]

调度系统任务处理现状搭建Hadoop集群,实现了离线数仓的基础架构编写HQL定时对数据进行计算,生成T+1的离线数据不同的任务编写成不同的HQL文件,通过Crontab进行调度安排几十个计算的先后顺序,避免顺序颠倒导致计算错误一个任务失败,后续任务全部等待,效率很低任务太多,串行执行时间太长任务处理场景原始数据为业务数据库or FTP存储的文件类数据通过Shell脚本或者......

Posted by 李玉坤 on 2018-07-04

数据平台 Azkaban

SQL优化指南

技巧1 比较运算符能用 “=”就不用“<>” “=”增加了索引的使用几率。技巧2 明知只有一条查询结果，那请使用 “LIMIT 1” “LIMIT 1”可以避免全表扫描，找到对应结果就不会再继续扫描了。技巧3 为列选择合适的数据类型能用TINYINT就不用SMALLINT，能用SMALLINT就不用INT，道理你懂的，磁盘和内存消耗越小越好嘛。技巧4 将大的DEL......

Posted by 李玉坤 on 2018-06-28

面试题

SpringBoot 中 Tomcat VS Undertow

SpringBoot中的Tomcat容器、SpringBoot设置Undertow、Tomcat与Undertow的优劣对比

前言在SpringBoot框架中，我们使用最多的是Tomcat，这是SpringBoot默认的容器技术，而且是内嵌式的Tomcat。同时，SpringBoot也支持Undertow容器，我们可以很方便的用Undertow替换Tomcat，而Undertow的性能和内存使用方面都优于Tomcat，那我们如何使用Undertow技术呢？本文将为大家细细讲解。 SpringBoot中的Tomca......

Posted by 李玉坤 on 2018-06-25

SpringBoot

[数据平台]06 数据平台之数据采集与治理六

数据采集介绍、数据采集场景、数据采集系统需求、常用的数据采集工具[Sqoop、Flume、DataX]、数据治理、Apache Atlas数据治理

数据采集介绍ETL基本上就是数据采集的代表,包括数据的提取(Extract),转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。在采集过程中针对业务场景对数据进行治理,完成数据清洗工作数据源复杂、多样,包括业务数据库、日志数据、图片、视频等多媒体数据等。数据采集形式也需要更加复杂,多样,包括定时、实时、增量、全量等。常见......

Posted by 李玉坤 on 2018-06-21

数据平台

[Linux]07 linux下NFS远程目录挂载

[数据平台]08 数据平台之SQL查询引擎

Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署

[Spark] 遇到的Spark问题

全方位测评Hive、SparkSQL、Presto等七个大数据查询引擎

测试方案测试整体方案、TPC-DS测试与单表测试方案及数据准备、测试组件介绍、性能测试分析、各组件综合分析比较

[Spark] Spark入门

各个JSON技术的简介和优劣

HDFS文件判断是否存在

[数据平台]07 数据平台之调度系统

SQL优化指南

SpringBoot 中 Tomcat VS Undertow

SpringBoot中的Tomcat容器、SpringBoot设置Undertow、Tomcat与Undertow的优劣对比

[数据平台]06 数据平台之数据采集与治理六

数据采集介绍、数据采集场景、数据采集系统需求、常用的数据采集工具[Sqoop、Flume、DataX]、数据治理、Apache Atlas数据治理

FEATURED TAGS

ABOUT ME

RECENT POSTS

ARCHIVES

[Linux]07 linux下NFS远程目录挂载

[数据平台]08 数据平台之SQL查询引擎

Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署

[Spark] 遇到的Spark问题

全方位测评Hive、SparkSQL、Presto等七个大数据查询引擎

测试方案测试整体方案、TPC-DS测试与单表测试方案及数据准备、测试组件介绍、性能测试分析、各组件综合分析比较

[Spark] Spark入门

各个JSON技术的简介和优劣

HDFS文件判断是否存在

[数据平台]07 数据平台之调度系统

SQL优化指南

SpringBoot 中 Tomcat VS Undertow

SpringBoot中的Tomcat容器、SpringBoot设置Undertow、Tomcat与Undertow的优劣对比

[数据平台]06 数据平台之数据采集与治理 六

数据采集介绍、数据采集场景、数据采集系统需求、常用的数据采集工具[Sqoop、Flume、DataX]、数据治理、Apache Atlas数据治理

FEATURED TAGS

ABOUT ME

RECENT POSTS

ARCHIVES

[数据平台]06 数据平台之数据采集与治理六