李玉坤

个人博客

[Linux]07 linux下NFS远程目录挂载

NFS 是Network File System的缩写,中文意思是网络文件系统。它的主要功能是通过网络(一般是局域网)让不同的主机系统之间可以共享文件或目录。NFS客户端(一般为应用服务器,例如web)可以通过挂载(mount)的方式将NFS服务器端共享的数据目录挂载到NFS客户端本地系统中(就是某一个挂载点下)。从客户端本地看,NFS服务器端共享的目录就好像是客户端自己的磁盘分区或者目录一......

[数据平台]08 数据平台之SQL查询引擎

Presto简介、Presto是什么、Presto显而易见的优点、查询示例、Presto数据模型、Presto架构与执行流程、数据库架构设计、MPP架构的优缺点、presto安装部署

Presto简介SQL on Hadoop Hive的出现让技术人员可以通过类SQL的方式对批量数据进行查询,而不用开发MapReduce程序 MapReduce计算过程中大量的中间结果磁盘落地使运行效率较低 为了提高SQL on Hadoop的效率,各大工具应运而生,比如Shark, Impala等 Presto是什么Presto是由Facebook开发的分布式SQL查询引擎,用来进行高速......

[Spark] 遇到的Spark问题

1、ERROR cluster.YarnClientSchedulerBackend: The YARN application has already ended! It might have been killed or the Application Master may have failed to start. Check the YARN application logs for......

全方位测评Hive、SparkSQL、Presto等七个大数据查询引擎

测试方案测试整体方案、TPC-DS测试与单表测试方案及数据准备、测试组件介绍、性能测试分析、各组件综合分析比较

现在大数据组件非常多,众说不一,那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢?易观Spark实战营团队选取了Hive、SparkSQL、Presto、Impala、HAWQ、ClickHouse、Greenplum七个大数据查询引擎,在原生推荐配置情况下,在不同场景下做一次横向对比,出品了一份开源OLAP引擎测评报告。 测试方案测试整体方案本次测试针对现有Olap的7大Sql引擎Ha......

[Spark] Spark入门

Spark简介[Spark优势、Spark组件]、Spark架构以及执行流程[Spark名词、Spark on yarn、Spark 架构简介、Spark Application、Spark执行流程、Spark执行特点]、RDD简介以及特性[RDD特性、RDD操作、RDD算子、RDD转换示例、RDD特性总结]、RDD特性总结、Stage划分、Spark三种运行模式、Spark三种模式执行流程、SparkSQL简介[DataFram简介、RDD VS DataFrame]

Spark简介Spark是一个高性能的、多用途的开源集群计算框架 Spark是Apache基金会最重要的项目之一,是现在大数据领域最热门的大数据计算平台之一 Spark不仅具备Hadoop MapReduce的优 ,且解决了MapReduce的缺陷 Spark优势支持多种数据源,如HDFS、 S3、JDBC等 支持多种运行模式,如Local, Standalone,Cluster 包含多个......

各个JSON技术的简介和优劣

HDFS文件判断是否存在

json-libjson-lib最开始的也是应用最广泛的json解析工具,json-lib 不好的地方确实是依赖于很多第三方包,包括commons-beanutils.jar,commons-collections-3.2.jar,commons-lang-2.6.jar,commons-logging-1.1.1.jar,ezmorph-1.0.6.jar,对于复杂类型的转换,json-......

[数据平台]07 数据平台之调度系统

调度系统[任务处理场景、任务处理需求、调度系统功能]、常用开源调度框架对比、[Azkaban介绍、Azkaban优点、Azkaban适用场景]、Azkaban架构与调度流程[Azkaban部署模式、Azkaban执行流程图、Azkaban核心交互流程]、Azkazban安装部署[前置环境、Azkaban编译、配置azkaban数据库、部署Azkaban-Web-Server、部署Azkaban Exec Server、Azkaban示例]、Azkaban用户代理[Azkaban任务类型、Azkaban代理用户]

调度系统任务处理现状 搭建Hadoop集群,实现了离线数仓的基础架构 编写HQL定时对数据进行计算,生成T+1的离线数据 不同的任务编写成不同的HQL文件,通过Crontab进行调度 安排几十个计算的先后顺序,避免顺序颠倒导致计算错误 一个任务失败,后续任务全部等待,效率很低 任务太多,串行执行时间太长 任务处理场景 原始数据为业务数据库or FTP存储的文件类数据 通过Shell脚本或者......

SQL优化指南

技巧1 比较运算符能用 “=”就不用“<>” “=”增加了索引的使用几率。 技巧2 明知只有一条查询结果,那请使用 “LIMIT 1” “LIMIT 1”可以避免全表扫描,找到对应结果就不会再继续扫描了。 技巧3 为列选择合适的数据类型 能用TINYINT就不用SMALLINT,能用SMALLINT就不用INT,道理你懂的,磁盘和内存消耗越小越好嘛。 技巧4 将大的DEL......

SpringBoot 中 Tomcat VS Undertow

SpringBoot中的Tomcat容器、SpringBoot设置Undertow、Tomcat与Undertow的优劣对比

前言在SpringBoot框架中,我们使用最多的是Tomcat,这是SpringBoot默认的容器技术,而且是内嵌式的Tomcat。 同时,SpringBoot也支持Undertow容器,我们可以很方便的用Undertow替换Tomcat,而Undertow的性能和内存使用方面都优于Tomcat,那我们如何使用Undertow技术呢?本文将为大家细细讲解。 SpringBoot中的Tomca......

[数据平台]06 数据平台之数据采集与治理 六

数据采集介绍、数据采集场景、数据采集系统需求、常用的数据采集工具[Sqoop、Flume、DataX]、数据治理、Apache Atlas数据治理

数据采集介绍ETL基本上就是数据采集的代表,包括数据的提取(Extract),转换(Transform)和加载(Load)。 数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。 在采集过程中针对业务场景对数据进行治理,完成数据清洗工作 数据源复杂、多样,包括业务数据库、日志数据、图片、视频等多媒体数据等。 数据采集形式也需要更加复杂,多样,包括定时、实时、增量、全量等。 常见......