自己总结的Kettle使用方法和成果 下载本文

内容发布更新时间 : 2024/5/13 1:46:36星期一 下面是文章的全部内容请认真阅读。

KETTLE使用自己总结的Kettle使用方法和成果说明

简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle可以在http://kettle.pentaho.org/网站下载到。

注:ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

下载和安装

首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。 下载网址:http://sourceforge.net/projects/pentaho/files/Data Integration/ 然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。 由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。 ?Kettle可以在http://kettle.pentaho.org/网站下载

? 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。

运行Kettle

进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat或Kettle.exe文件。Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:

# chmod +x spoon.sh

# nohup ./spoon.sh &后台运行脚本

这样就可以打开配置Kettle脚本的UI界面。

Kettle的简单使用

首先,点击“文件—新建—转换”菜单创建一个转换。

我们可以看到转换的主对象数和核心对象区域,然后我们添加一个DB连接。 选择“注对象数”,双击“转换2”标签下的“DB连接”会弹出一个设置窗口。填入连接名称,选择连接类型,配置数据库设置,然后测试下配置是否正确。

由于Kettle没有将所有的数据库的Driver文件集成,所以如果想连接指定的数据库,需要自己下载JDBC驱动,放入到解压目录下的lib目录中。添加完JDBC驱动后,必须重启下Kettle才能加载驱动。 1)Oracle的JDBC驱动:ojdbc6.jar

2)MySQL的JDBC驱动:mysql-connector-java-5.1.32.jar

注:在转换之前需要创建转换所需的表,原始表和转换的目标表。

点击“核心对象”标签页中的“输入”,选择“表输入”拖到“转换”区域。 双击“表输入”图标弹出表输入对话框,填入步骤名称,选择数据库连接,点击“获取SQL查询语句”,或者直接写入SQL语句,填写附件信息,点击“预览”按钮查看执行结果,没有错误,点击“确认”关闭对话框。