李玉坤

个人博客

Computer language comparison

Scala vs Java HelloWorld123456789101112public class HelloWorld{ public static void main(String[] args){ System.out.println("Hello World..."); }}Scala每行代码并不强求使用;结束,jav......

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Airbnb 日志事件获取、Spark 的并行度由 Kafka 分区数量决定、事件的倾斜和大小不一、近实时摄取数据、解决方案

Airbnb 日志事件获取日志事件从客户端(例如移动应用程序和 Web 浏览器)和在线服务发出,其中包含行为或操作的关键信息。每个事件都有一个特定的信息。例如,当客人在 Airbnb.com 上搜索马里布的海滨别墅时,将生成包含位置,登记和结账日期等的搜索事件。 在 Airbnb,事件记录对于我们理解客人和房东,然后为他们提供更好的体验至关重要。它为业务决策提供信息,并推动工程功能(如搜索,......

[数据平台]05 数据平台之权限-Ranger 五

Apache Ranger简介Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。 丰富的组件支持(HDFS,HBASE, HIVE, YARN, KAFKA,STORM) 提供了细粒度级权限控......

[数据平台]04 数据平台之权限 四

Hadoop/Hive自带权限控制[现有方案、Hadoop权限、Hive权限]、实操Hive的权限操作

Hadoop/Hive自带权限控制集群安全下的要求支持多组件,最好能支持当前大数据技术栈的主要组件, HDFS、HBASE、HIVE、YARN、КАFКА等。 支持细粒度的权限控制,可以达到HIVE列, HDFS目录, HBASE列,YARN队列。 开源,社区活跃,按照现有的集群情况改动尽可能的小,而且要符合业界t趋势。 现有方案 Hadoop、Hive本身的权限控制 Kerberos安全认......

[数据平台]03 数据仓库之离线-Hive 三

进入命令行、常用基本命令、DDL、DML、常用函数

进入命令行1、可以直接hive命令进入2、可以通过HS2服务进入 123456789HiveServer2 = HS2 HS2 :Server 默认端口号是10000 当然还可以改成10086等其他的 hiveserve2 --hiveconf hive.server2.thrift.port=10086 启动:$HIVE_HOME/bin下的 ./hiveserve2 beelin......

[数据平台]02 数据仓库之离线-Hive 二

Hive产生背景及Hive是什么、为什么要使用Hive及Hive发展历程、Hive和Hadoop对比、Hive体系架构以及部署架构、Hive和RDBMS的对比、Hive单机环境搭建、Hive执行方式

Hive产生背景及Hive是什么Hive产生的背景 MapReduce编程的不便性 HDFS上的文件缺少Schema Hive是什么 由Facebook开源,最初用于解决海量结构化的日志数据统计问题 构建在Hadoop之上的数据仓库 Hive定义了一种类SQL查询语言: HQL(类似SQL但不完全相同) 通常用于进行离线数据处理(刚开始采用MapReduce ) 底层支持多种不同的执行......

[数据平台]01 数据仓库之离线 一

数据仓库VS数据库[OLTP vs OLAP、数据仓库数据流程图、为什么建设数据仓库、数据仓库建设目标、如何实现]、数据分层建设[数仓建设背景、为什么进行数仓分层、STG层、ODS层、DWD层、DWS层、DIM层、DM层]

数据仓库VS数据库数据仓库概念:数据仓库是将多个数据源的数据经过ETL处理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环节。 ETL:Extract(抽取)、Transfrom(转换)、Load(加载) 1、数据库是面向事务的设计,数据仓库是面向主题的设计的。2、数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。3、数据库设计是避免冗余,采用三范式的规则来设计,......

[数据平台] 离线数仓VS实时数仓

离线数仓、离线数仓架构、实时数仓、实时数仓架构、数仓架构发展、Lambda架构、Kappa架构、Kappa架构的不足、Lambda架构的不足、大公司实时数仓架构

离线数仓离线数据仓库主要基于Hive等技术来构建T+1的离线数据。 通过定时任务每天拉取增量数据导入到Hive表中。 创建各个业务相关的主题维度数据,对外提供T+1的数据查询接口。 离线数仓架构数据源通过离线的方式导入到离线数仓中。 数据分层架构:ODS、DWD、DM等。 下游应用根据业务需求选择直接读取DM。 实时数仓实时数仓基于数据采集工具,将原始数据写入到Kafka等数据通道。 数据最......

[Scala] Scala项目实战

项目技术概述、项目需求分析、环境搭建、代码部分

项目技术概述Java: Spring Boot + Spring Data JPA + JavaScala: Spring Boot + Spring Data JPA + Scala + Java 混编 项目需求分析构建大数据统一元数据管理 数据库管理:default、XXX id:数据库编号 name:数据库名称 location:数据库存放在分布式系统上的目录 java语言来实现 ......

[Scala]03 Scala学习笔记

Scala 读取文件及网络数据、Scala读取MySQL数据、Scala操作XML文件

Scala 操作外部数据Scala 读取文件及网络数据123456789101112131415161718192021222324252627282930313233343536373839import scala.io.Sourceobject FileApp { def main(args: Array[String]): Unit = { val file......