最新自己总结的Kettle使用方法和成果.doc
上传人:天马****23 上传时间:2024-09-10 格式:DOC 页数:37 大小:3.3MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

最新自己总结的Kettle使用方法和成果.doc

最新自己总结的Kettle使用方法和成果.doc

预览

免费试读已结束,剩余 27 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

自己总结的Kettle使用方法和成果(可以直接使用,可编辑优秀版资料,欢迎下载)KETTLE使用自己总结的Kettle使用方法和成果说明简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出.Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制.Kettle可以在网站下载到。注:ETL,是英文Extract-Transform—Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库.下载和安装首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20。0.下载://sourceforge.net/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce—5.2.0.0—209.zip,解压后会在当前目录下上传一个目录,名为data-integration。由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK.žKettle可以在://kettle。pentaho.org/网站下载ž下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat或Kettle.exe文件。Linux用户需要运行spoon。sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:#chmod+xspoon。sh#nohup./spoon。sh&后台运行脚本这样就可以打开配置Kettle脚本的UI界面.Kettle的简单使用首先,点击“文件—新建—转换"菜单创建一个转换。我们可以看到转换的主对象数和核心对象区域,然后我们添加一个DB连接。选择“注对象数",双击“转换2"标签下的“DB连接”会弹出一个设置窗口。填入连接名称,选择连接类型,配置数据库设置,然后测试下配置是否正确。由于Kettle没有将所有的数据库的Driver文件集成,所以如果想连接指定的数据库,需要自己下载JDBC驱动,放入到解压目录下的lib目录中。添加完JDBC驱动后,必须重启下Kettle才能加载驱动.1)Oracle的JDBC驱动:ojdbc6.jar2)MySQL的JDBC驱动:mysql—connector-java—5。1.32。jar注:在转换之前需要创建转换所需的表,原始表和转换的目标表。点击“核心对象”标签页中的“输入”,选择“表输入”拖到“转换”区域。双击“表输入”图标弹出表输入对话框,填入步骤名称,选择数据库连接,点击“获取SQL查询语句”,或者直接写入SQL语句,填写附件信息,点击“预览"按钮查看执行结果,没有错误,点击“确认"关闭对话框。点击“核心对象”—“输出”,选择“Excel输出"拖入到转换区,双击Excel输出图标,弹出对话框,选择文件名和其它附加参数,点击确认。点击输入表的图标,同时按下shift键,再点击输出文件,将两者连接起来。然后双击Excel输出进行配置。最后一步就是执行kettle脚本,点击工具栏上的绿色箭头即可。点击“启动”开始转换,在转换过程中会出现转换的信息,如下图所示.完成转换后,我们可以Excel输出目录中查看转换结果.注:时间字段换到Excel为空,修改SELECT语句中使用TO_CHAR转换成字符串,例如:TO_CHAR(START_TIME,’yyyy-mm—ddHH24:MM:SS’)ASSTART_TIME.注:Excel中的记录不能超过65535条,否则会自动关闭文件,导致转换失败。上面是一个简单的数据迁徙脚本,从数据库导出数据到EXCEL文件中。Kettle处理HBase本教程使用的软件版本信息如下:1)Hadoop(1.2。1)2)PantahoDataIntegration(5。2。0)3)HBase(0.94.19)。PentahoShim(社区版)目前支持的Hadoop版本:参考:://wiki.pentaho/display/BA