pentaho介绍 下载本文

内容发布更新时间 : 2024/5/18 14:26:19星期一 下面是文章的全部内容请认真阅读。

Errors:先前的任务条目的错误数

Lines_input:从数据库或者文件读取的行数 Lines_output:从数据库或者文件读取的行数 Lines_updated:数据库表更新的行数 Lines_read:从先前转换步骤读取的行数

Lines_written:往下一个转换步骤写入的行数 Files_retrieved:从FTP 找到的文件数 Exit_status:Shell 脚本的退出状态

Nr(integer):任务条目数。每下一个条目就会自动增长

Iswindows:如果Kettle 运行在Windows 平台上就返回true 8.5.13 Create file

你可以使用 Create afile任务条目创建一个空文件,这对在任务中创建“触发器”是 有用的。

8.5.14 Delete file

你可以使用 Delete afile 任务条目来删除一个文件。 8.5.15 Wait for file

你可以使用 Wait forfile任务条目来等待一个文件。这个任务条目将定期的检查指定 的文件是否存在,以决定流程是否继续。这个条目可以不确定的等待文件或者经过一过段时 间后超时。

8.5.16 File compare

你可以使用 Filecompare 任务条目来比较两个文件的内容,控制任务的流程。当两个 文件相等时,成功流出节点将继续,否则失败节点将继续。 8.5.17 Zip files

这个步骤将按照你在对话框中指定的选择创建一个标准的 ZIP 归档。 选项

九、 Metadata layer 元数据层的用法和范围。

元数据来自数据库以及用户定义元数据通过使用PME(pentahometadata editor)定义并存储在数据库中。

元数据能从知识库中导出成xml文件保存。元数据与在pentahoserver的pentahosolution相关,它用作基于metadata报表服务的源。

使用pentaho报表设计工具,终端用户可以使用元数据创建报表。

当运行基于pentaho元数据报表时,报表引擎解释报表,查询规范(query specifications)以MQL(Metadataquery language)的形式存储在报表中。 下图是metadata 层使用范围概览。 十、 pentaho报表设计工具 10.1 报表架构

下图显示了报表架构的不同组件: 报表设计器定义报表规范 报表规范以xml的格式存放。

报表引擎根据报表规范和输出格式执行报表。

数据库连接定义能使用标准的中间件如JDBC来连接不同的数据源。在报表的最后阶段,报表查询被report engine直接执行。

Pentaho不仅包含了执行pentaho 报表的能力,而且还包含了jasper report 和BIRT报表的

类库。Pentaho报表引擎通常叫做JFreeReport,其设计器完全就是JFree Report 设计器的再造版,被称为pentaho report Designer(PRD)。 10.2 基于web的报表(web-based reporting) Pentaho web 门户(web portal)不仅提供了查看和分析内容,而且也提供了特殊报表(ad hoc report)的能力。

使用基本web的报表工具能创建的报表只限于没有图形、交叉和图片的分组列表。这种web工具官方名字叫Web Ad hoc query andreporting client,简称 WAQR。WAQR只能使用metadata model工作,它必须首先发布到服务器。

WAQR模板存储在pentaho-solutions/system/waqr/templates目录,每个模板都存储在它自己的目录下,增加自己的模板比较容易的方法就是拷贝其中一个文件夹然后再重命名它。可以手工修改模板,关于手工修改模板可以参考

http://wiki.pentaho.com/display/ServerDoc1x/Adhoc+Reporting+Templates

10.3 Pentaho Report Designer

Pentaho report Designer是一款图形化的前端报表设计工具。它的好处之一是可以使用metadata作为数据源进行报表编辑。报表可以直接使用report designer发布到pentaho BI平台。新的.prpt文件由pentaho server自动生成,因此不需要额外的包装就可以使PRD报表运行在门户网站上。 有两种方式创建报表: l The New option l The Report Wizard

报表的基本部分:

l Page header/report footer。任何放在这部分中的元素都会出现在每一页。Page behavior style属性能指定page header或page footer显示在第一页还是最后一页或都不显示。

l Report Header/Footer。任何放在这部分的内容都只会显示一次。Report header的典型用法是首页,显示所有参数或报表的简单简介或report title。Report footer用于报表的total。 l Group Header/Footer。一张报表至少会有一个分组,每组会有一个header和footer来放置组标签或小计(subtotal)。分组可以嵌套,创建一个层级报表。

l Details Body。只有最里层分组包含明细体,它包含来自查询的每一行记录,detail header和detail footer也是明细体的一部分。

l No Data。这是一种特殊的数据带,显示无查询结果时的显示信息。 l Watermark。这个主要用来设置背景。

一张PRD只能包含一个Data set,但是一张报表可以包含子报表。合并或使用子报表的的数据到主报表是不可能的。 10.3.1 创建数据库连接

有三种入口创建数据库连接: l Data 菜单->adddata source l Data tab->add datasources按钮 l Data Tab->右键单击Data set 10.3.2 创建SQL Query

在创建或编辑Datasource的界面中,右边有创建query的按钮,点增加query按钮可以创建SQL Query,如下图: 10.3.3 增加参数

有以下两种途径进入增加参数窗口: 9、 Data菜单->add parameter

10、 右边Data Tab->右键parameters-> add parameter 增加参数窗口 Name中输入参数名

Label是在运行时参数前的提示标签 Value type指定参数的值类型 Data format是指定值的格式 Default value指定参数的缺省值

Mandatory如果选上,参数是必须的

Hidden指定该参数是否需要显示在页面上

Display type-指定参数显示的方式,是单选下拉框还是多选下拉框或文本输入等。

Query-指定参数的值以及显示的内容从哪个query获得,如果是文本输入,可以不指定。 增加参数后,可以在query中使用该参数,使用方式${parameterName} 十一、 保护pentaho管理控制台 1、 管理员账号设置

管理员账号信息存储在/resource/config目录下的login.properties文件中,其格式如下: admin:OBF:1cb01j1s1kmy1jnb1wn31jk71kjo1iz21caa,server-administrator,content-administrator,admin

其中admin是用户名,OBF是其相应的密码。可以使用下面的命令来重新设置账号及其相应的密码。

java -cp lib/jetty-6.1.2.jar;lib/jetty-util-6.1.9.jarorg.mortbay.jetty.security.Password admin Admin1234

执行该命令需要进入administration-console目录。执行后将生成的OBF拷贝入login.properties中覆盖现有的值即可。

2、 使用ssl协议

为了启用https,只需要修改resource/config目录下console.properties文件中的console.ssl.enabled=false设置为true。

十二、 Pentaho PSW(pentaho schema worbench) 12.1安装PSW

下载相关软件,解压即可。

在解压后,需要把连接数据库相关驱动程序的Jar包文件拷贝到drivers目录中。 12.2启动psw

在windows环境下,直接运行workbench.bat启动PSW。在unix环境下,执行workbench.sh脚本启动PSW。

在开始设计之前,需要设置连接数据库的相关信息,点Tool->Connection菜单,在弹出的窗口如下图,填入相关的信息。

Driver Class Name –连接数据库的JDBC驱动类名。相应的jar包应该拷贝到drivers目录中。 Connection URL –连接数据库服务的连接字符串。

Username and password –连接数据库的用户名和密码。 12.3 cube设计 创建schema

创建cube,指定fact table

创建维度,指定维度的hierachy,level级相应的dimension table。 指定相应的指标字段。

12.4 Publishcube到BI Server

需要保证pentaho BIServer是可用的,即BI Server是启动了的。

打开要publish 到BI Server的cube所在schema,点file->publish菜单,在弹出框中输入BI server的地址,publish 的password(这个在\\server\\biserver-ce\\pentaho-solutions\\system目录下的publisher_config.xml文件中)和授信用户及其密码,如下图所示。 十三、 Mondrian 13.1 Mondrian 架构

Mondrian系统包括四层:展现层(presentationlayer)、维度层(dimensionallayer)、聚合层(starlayer)和存储层(storagelayer),其架构如图13-1所示。

第一层:展现层,根据用户的不同应用有不同的展现方式,包括pivot tables,pie,line,chart等,也可以通过swing或jsp展现,可以展现成图片或动画。

第二层:维度层,这层主要解析、验证、和执行MDX查询。从效率考虑,维度层批量发单元请求(cell-requests)给聚合层。 第三层:聚合层。这层负责维护聚合缓冲。一个聚合是内存中的由一组维度值确定的指标集。 聚合层向存储层发请求。

第四层:存储层。这是一个关系数据库层,负责提供聚合的单元数据和维表数据。

13.2 设计Mondrian Schema

Mondrian Schema定义了一个多维数据库,它包含逻辑数据模型(包含cube、hierachies、成员)和该模型对物理模型的映射。

逻辑模型包含用来写MDX查询的结构:cube、hierachies、level、member。

物理模型是通过逻辑模型呈现的数据源。典型的是星形模型,一组关系数据库表。 Mondrian Schema文件以xml文件的方式存放。 十四、 Pentaho Analysis Services

用户使用pentahoanalysis services(PAS)的事件流程如下图所示。 1、 终端用户通过http请求浏览、钻取到olappivot 表。

2、 Jpivot servlet接收请求并转变为mdx查询,查询发给mondrian rolap engine 3、 Mondrian解释MDX为sql.这部分技术称为 ROLAP

4、 关系数据库执行这种由Mondrian解释的sql查询。Mondrian接收执行结果 5、 Mondrian接收执行的结果并转换为多位结果集

6、 JPivot使用多位结果集并转换为html页面显示数据。 14.1 JPivot使用

在BI server中打开新的Analysis view,进入JPivot界面。如下图所示。 下图是JPivot的主要工具按钮:

1、可以通过使用钻取的三个按钮指定钻取的方式。通过图形显示来显示图形报表,通过图形设置来设置要显示的图形报表类型及其相关的属性设置。 2、通过MDX语句编辑框编辑MDX来生成报表

3、通过OLAP Navigator来设置报表,包括行列维度设置,filter(slice)设置。