Kettle学习 下载本文

目录

Kettle中元素介绍 ............................................................................................................................ 2

变量........................................................................................................................................... 4 转换........................................................................................................................................... 5

转换连接颜色 ................................................................................................................... 6 步骤(右键属性) ................................................................................................................... 6 文本文件输入 ........................................................................................................................... 7 表输入....................................................................................................................................... 8 获取系统信息 ........................................................................................................................... 8 生成记录 ................................................................................................................................... 9 Cube输入 ............................................................................................................................... 10 Xbase输入 .............................................................................................................................. 10 Excel输入 ............................................................................................................................... 10 XML输入 ................................................................................................................................ 10 获取文件名 ............................................................................................................................. 10 获取文件行数 ......................................................................................................................... 10 文本文件输出 ......................................................................................................................... 11 表输出..................................................................................................................................... 11 插入/更新 ............................................................................................................................... 12 更新(可以用插入/更新替代) ................................................................................................. 12 删除......................................................................................................................................... 12 序列化到文件(以前是Cube output) ..................................................................................... 12 XML输出 ................................................................................................................................ 12 Excel输出 ............................................................................................................................... 13 Access输出 ............................................................................................................................. 13 数据库查询(Database lookup) ............................................................................................... 13 流查询..................................................................................................................................... 13 调用数据库存储过程 ............................................................................................................. 14 HTTP客户端 ........................................................................................................................... 14 字段选择 ................................................................................................................................. 14 过滤记录 ................................................................................................................................. 15 排序记录 ................................................................................................................................. 15 添加序列 ................................................................................................................................. 15 空操作(什么也不做) .............................................................................................................. 15 行转列(Row Normaliser) ........................................................................................................ 16 拆分字段 ................................................................................................................................. 17 去除重复记录 ......................................................................................................................... 17 分组(Statistics) ........................................................................................................................ 17 设置为空值(Null if) ........................................................................................................... 18 计算器..................................................................................................................................... 18 增加XML(Add XML) ............................................................................................................... 18 增加常量 ................................................................................................................................. 18

1 / 42

行转列(Row Denormaliser) .................................................................................................... 19 行扁平化 ................................................................................................................................. 19 值映射..................................................................................................................................... 20 被冻结的步骤(Blocking Step) ................................................................................................. 20 记录关联(笛卡尔输出) ..................................................................................................... 21 数据库连接 ............................................................................................................................. 21 合并记录 ................................................................................................................................. 21 排序合并(Sorted Merge) ........................................................................................................ 22 Merge Join(合并连接) ....................................................................................................... 22 Java Script值(Modified Java Script Value) .............................................................................. 23 执行SQL语句 ........................................................................................................................ 23 Execute row SQL script ............................................................................................................ 24 维度更新/查询 ....................................................................................................................... 25 联合更新查询 ......................................................................................................................... 25 映射(子转换) ..................................................................................................................... 26 从结果获取记录 ..................................................................................................................... 27 复制记录到结果(字符串) ................................................................................................. 27 Set Variables(设置变量) ......................................................................................................... 27 Get Variables(获取变量) ......................................................................................................... 28 Get files from result(从以前的结果获取文件) ...................................................................... 28 Set files in result ...................................................................................................................... 28 Injector(记录注射器) .............................................................................................................. 29 Socket reader(套接字读入器) ................................................................................................ 29 套接字输写器(Socket writer) ................................................................................................. 30 聚合记录 ................................................................................................................................. 30 流XML输入(属sax解析,和Get data from xml功能相同) ............................................... 30 Abort(中止) ............................................................................................................................. 31 Oracle Bulk Loader(Oracle 批量装载) ................................................................................... 31 任务设置(Job Settings)未找到 ......................................................................................... 33 任务条目(Job Entries)未找到 ........................................................................................... 33 Start ......................................................................................................................................... 33 附录1 : ............................................................................................................................. 36 JS函数 .................................................................................................................................... 36

资源库:转换和job的保存地点

1、kettle 有两种方式连接资源库,一种是纯数据库式,所有的转换全部都保存在一个数据库中;另外一种连接方式是使用文本文件,也就是xml 文件,在做完任何转换之后,我们都可以把转换或者Job 变成xml 文件输出。

Kettle中元素介绍

2 / 42

===========================

Transformation======================

? 输入:

1、Access Input 2、Cube Input 3、Excel 输入

4、Generate random value 5、Get File Names

6、Get Files Rows Count 7、Get SubFolder names 8、Get data from XML 9、Mondrian Input

10、 Propperty Input 11、 XBase输入 12、 文本文件输入 13、 表输入

14、 获取系统信息 15、 CSV file input ? 输出:

1、Access Output 2、Cube输出 3、Excel Output 4、Property Output 5、SQL File Output 6、XML输出 7、删除

8、文本文件输出 (CSV文件输出,将分隔符改为“,”) 9、表输出

? 转换:

1、增加常量 用来给查询增加常量列 2、增加序列 用来给查询增加序列列 3、字段选择 用来选择输出字段

4、拆分字段 将某字段按照某个分隔符分割为多个字段 5、排序记录 按照某些字段对记录进行排序 6、Number range 不同范围输出不同的值 7、Add a checksum md5加密等

8、Replace in string 替换字段值为其他值

9、去除重复记录 使用之前所有记录必须已有序 10、值映射

11、Unique rows(HashSet) 12、计算器 对字段值进行+、-、*、/、平方、开放、四舍五入等数

3 / 42

学计算以及时间计算。 ? Flow:

1、过滤记录 2、Switch/Case ? 查询:

1、数据库查询(多表关联时使用,无关联时只使用表输入即可)

? 连接

1、记录关联(笛卡尔输出) 将多个表记录关联起来(笛卡尔积,不是表连

接)

? 脚本

1、Modified Java Script Value

名词解释:

1、hops:节点连接,一个连接连接两个步骤。除了指定执行顺序,也可以指定下一

个任务将会被执行的条件。

2、

常用的工具

1、SQL Editor :数据库连接—右键Sql Editor 2、Explore :数据库连接—右键explore 3、搜索元数据 :CTRL + F 4、设置环境变量:ctrl+alt+j

变量

1. 环境变量:使用环境变量唯一的问题是:不能动态的使用变量

2. Kettle变量:因为环境变量的范围非常广泛,所以我们引入Kettle 变量,它们对于设

置变量的任务来说是局部的

3. 内部变量:

3.1 永远被定义(全局变量)

变量名称 4 / 42

示例值