李玉坤

个人博客

[Kettle]07 七、kettle查询控件

kettle查询控件

查询是转换里面的第七个分类。查询是用来查询数据源里的数据并合并到主数据流中。 HTTP clientHTTP client是使用GET的方式提交请求,获取返回的页面内容。 自定义常量数据自定义常量数据是用来生成一些不变的数据。 实例 从网络上获取xml,解析出ProductID、ProductName、SupplierID、CategoryID,保存到Excel中地址:http://serv......

[Kettle]06 六、kettle流程控件

kettle流程控件

流程是转换里面的第六个分类。流程主要用来控制数据流程和数据流向。 Switch-caseSwitch/case让数据流从一路到多路。 实例从Excel输入读取数据,按sex进行数据分类,把女性、男性、保密分别保存不同的Excel文件里面。 1表示男性0表示女性2表示保密 分析输入:Excel输入流程:Switch/case输出:Microsoft Excel输出 过滤记录过滤记录让数据流从一......

[Kettle]05 五、kettle应用控件

kettle应用控件

应用是转换里面的第五个分类。 应用都是一些工具类。 替换NULL值替换NULL值就是把null转换为其它的值。 NULL值不好进行数据分析 写日志写日志主要是在调试的时候使用,把日志信息打印到日志窗口。 发送邮件发送邮件就是执行成功、失败、其它某种情景给相关人员发送邮件。 注意:只有企业邮箱才可以!个人邮箱不行!并且需要在邮件设置中开通客户端授权码! ...

[Kettle]04 四、kettle转换控件

kettle转换控件

转换是转换里面的第四个分类。 转换属于ETL的T,T就是Transform清洗、转换。 ETL三个部分中,T花费时间最长,是“一般情况下这部分工作量是整个ETL的2/3。 Concat fieldsConcat fields就是多个字段连接起来形成一个新的字段。 值映射值映射就是把字段的一个值映射成其他的值。 在数据质量规范上使用非常多,比如很多系统对应性别gender字段的定义不同。系统1......

[Kettle]03 三、输出控件

Kettle输出控件

输出属于ETL的L,L就是Load加载。 Excel输出输出是转换里面的第二个分类。 文本文件输出数据操作常见的格式是:TXT和CSV。 SQL文件输出SQL文件输出可以导出数据库表的结构和数据。 表输出表输出就是把数据写入到指定的表! 更新更新就是把数据库已经存在的记录与数据流里面的记录进行比对,如果不同就进行更新。 注意:如果记录不存在,则会出现错误! 插入更新插入更新就是把数据库已经存......

[Kettle]02 二、输入控件

Kettle输入控件

CSV文件输入CSV文件是一种带有固定格式的文本文件。 文本文件输入提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。tomcat访问日志 Excel输入微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。xls:2007年之前xlsx:2007年之后 多文件合并数据往往也是以多个文件的形式出现,有的数据还会分散在多个子文件夹。所以合并数据也是开发中非常常见的操作。......

[Kettle]01 一、入门

Kettle入门

Kettle简介企业数据仓库模型 ETL简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我要学习的ETL工具是Kettle! Kettle简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、......

[Kerberos] Kerberos认证简介

Kerberos 简介、常见的认证方式、Kerberos 名词、Kerberos 流程、Kerberos 优点

Kerberos 简介Hadoop可以利用kerberos认证机制来识别可靠的服务和节点。 Kerberos与Hadoop权限管理并不冲突,而是相辅相成。 Kerberos是一种网络认证协议,是可信赖的第三方认证服务。 常见的认证方式对称加密:加密解密时使用相同的密钥,或是可以相互推算的密钥。需要把加密的密钥告诉对方,对方才可以解密。比如 1314加密后是一生一世,需要把密钥给对方,才知道一......

[Kafka] 为Kafka集群选择合适的Topics/Partitions数量

越多的分区可以提供更高的吞吐量  首先我们需要明白以下事实:在kafka中,单个patition是kafka并行操作的最小单元。在producer和broker端,向每一个分区写入数据是可以完全并行化的,此时,可以通过加大硬件资源的利用率来提升系统的吞吐量,例如对数据进行压缩。在consumer段,kafka只允许单个partition的数据被一个consumer线程消费。因此,在consu......

[Kafka] Kafka新建的分区会在哪个目录下创建

我们知道,在启动 Kafka 集群之前,我们需要配置好 log.dirs 参数,其值是 Kafka 数据的存放目录,这个参数可以配置多个目录,目录之间使用逗号分隔,通常这些目录是分布在不同的磁盘上用于提高读写性能。当然我们也可以配置 log.dir 参数,含义一样。只需要设置其中一个即可。 如果 log.dirs 参数只配置了一个目录,那么分配到各个 Broker 上的分区肯定只能在这个目录......