Archive for the ‘数据仓库’ category

ETL工具——kettle插件开发(基础篇)

August 7th, 2010

      在我们做ETL工作的时候,在某些项目中往往会遇到一些特别的流程任务,kettle原有的流程处理节点已经不能满足我们的要求,这时候我们就需要定制流程处理节点了。定制流程节点主要是针对数据的管理、数据的验证和某些特别文件数据的提取。大家通过查看kettle源代码,就可以知道怎样去创建你自己的kettle插件了。

 

这篇文章主要告诉大家在kettle 4.0版本上怎样开发一个transformation类型的简单插件,这个插件可以接受任何记录流,然后在流后面再添加一个带值的字段,用户能够定义字段的名称,插件非常简单。O(∩_∩)O~ 我将尽可能简洁的介绍开发插件需要掌握的一些接口规范。

  » Read more: ETL工具——kettle插件开发(基础篇)

公共仓库元模型(CWM)学习(一)

June 15th, 2010

一、什么是CWM?

在我们学习一个新东西时,首先得弄懂明白它是用来干什么的?然后通过实例与理论交错学习,CWM——Common Warehouse Metamodel, 很明显翻译过来时公共仓库元模型,CWM的提出主要基于以下背景:

  • 从数据仓库开发者的角度:单一工具很少能完全满足用户不断变化的需求,但同时又很难对各种产品进行集成;
  • 从数据仓库用户的角度:面对的信息量太大,无法轻易找到自己真正需要的,而且把这些信息完整正确地表示出来也是个挑战;
  • 从数据仓库供应商的角度:目前信息的共享还没有标准格式,元数据集成的代价太大;

» Read more: 公共仓库元模型(CWM)学习(一)

开源项目使用总结

May 30th, 2010

          现在开源项目琳琅满目,互联网的力量就是强大,一个好的开源项目往往升级速度相当了得,在使用这方面的资料的时候,大家甚至无所适从,以为暂时一解眉头之急就ok,之后往往导致很多不可预见的问题,下面是我在使用开源项目总结的一些,忘大家少走弯路:
» Read more: 开源项目使用总结

开源etl:kettle使用总结【持续更新】

May 1st, 2010

1、kettle 维度更新
代理关键字 增加的时候 ,其 FID类型最大只能设置 NUMBER(17),否则报错 ,数据库:ORACLE

2、利用kettle发邮件附件,下面是流程图:

mail » Read more: 开源etl:kettle使用总结【持续更新】

开源olap:mondrian/jpivot 【持续更新】

April 5th, 2010

上周花了好些时间去研究这两个玩意,了解了OLAP的基本原理,学习了一下OLAP查询语言MDX标准,下面是关于MDX的官方解释:

MDX was introduced by Microsoft with Microsoft SQL Server OLAP Services in around 1998, as the language component of the OLE DB for OLAP API. More recently, MDX has appeared as part of the XML for Analysis API. Microsoft proposed MDX as a standard, and its adoption among application writers and other OLAP providers is steadily increasing.

» Read more: 开源olap:mondrian/jpivot 【持续更新】

OLAP之全过程介绍

March 15th, 2010
   经过多年来企业信息化建设,大部分都拥有了自己的财务,OA,CRM 等软件。这些系统都有自己的独立数据库,记录着企业运行情况某个方面的数据。但是单独看这些系统的报表,并不一定能对企业运行情况有全面客观的了解。就像只凭身高不能判断一个人是否健康,所以体检的时候我们需要化验许多指标,做各种检测,就是为了对身体情况有更全面的了解,作出更准确的判断。同样对一个企业,不能仅根据出勤率就判断一个人的绩效高低,因为你不知道他的工作成果情况。仅根据财务报表输入支出也体现不了各部门的收益情况,这个部门有多少工作人员,完成了哪些任务你也不知道。正式由于这种需求,产生了OLAP(Online analytical processing )应用,在建立了汇集各系统数据的数据仓库后,OLAP应用可以快速解析多维的查询分析,针对查询出的数据,用户也可以方便的进行钻取,如查询出了年度数据,可以很方便的查看月度数据;查询好地区的数据,可以再看相应城市的数据,还可以显示相应的趋势图,柱状图,饼图等,从而给决策者的判断提供有效的数据支持。 » Read more: OLAP之全过程介绍

谈谈商业BI产品

March 7th, 2010

    最近对BI的整体解决方案进行了一些调查,发现商业的产品还不少,开源滴也很活跃,商业滴貌似都是几大巨头垄断,如微软、IBM、oracle,而且价钱也不菲,动则十万百万,普通老百姓企业还真有些承受不起,可惜国内真正用到其精粹的少之又少,似乎都是大才小用。

  1. 这与国内企业信息化程度有很大的关系,毕竟国外的信息化积累有了好多年,当然历史数据就会有很多,有基础才有上BI的可能。
  2. 好不容易赚点钱把企业搞大点,普通的中等企业老板也不愿意花这么多财力去构建公司的这一信息化服务,普通的Cogons一套至少也上百万吧

下面对商业BI的一些选型产品: » Read more: 谈谈商业BI产品