干净的资料数据来源是BI成功的起点

2020-01-02

导入BI系统,用意在发掘数据中的事实,藉由这个事实再发展出种种分析面向与决策协助。因此想要发掘出事实,有赖于“干净”的资料数据。

 

BI架构中,建立干净的数据,通常利用ETL工具达成。ETL是撷取(Extration)、转换(Transformation)、加载(Loading)三个英文字的缩写,意谓着数据从来源到目的的清洁过程,每经过一个阶段,数据就更具价值。

 

对于有进销存管理系统的企业,这个问题较小,例如顶好超市主要从进销存管理系统制式抛转到数据仓库,因此数据整合问题在进销存管理那一端就已经解决了。不过顶好超市目前也透过POS系统,直接回传消费者的购买情形到数据仓库,进行购物篮分析。购物篮分析日后打算运用数据采矿进行分析,到时候数据质量要求更高,在数据整合上可能就会出现较大的挑战。

 

同样的,星裕国际也是在和丰进销存管理导入一年之后,确认数据都正常稳定了,才开始进行BI的导入计划,同样也是着眼在数据的正确。

 

企业本身如果具备开发能量,可以自行开发或BI系统或透过第三方的ETL工具进行数据转换、整合工作。如果没有的话,也可以在导入时由导入厂商做好资料整合的工作,例如永准公司的导入经验,就是请鼎新导入团队利用SQLServer的ETL工具DTS,将AS400的数据捞取之后,再予以整合。

 

建制数据仓库不必要花大钱

 

BI经常被企业视为庞然大物,非得花费个上千万的预算才有可能办到,而这些预算中,数据仓库往往又是当中最耗费成本的。

 

究竟数据仓库有没有建置的必要?首先我们要从了解数据仓库是什么着手。如果排除数据仓库在建置时采用主题式、整合过的数据这类方法论不谈,数据仓库本质上,说穿了就是可以储存大量数据的数据库,以目前微软的SQLServer2005都宣称能储存TB等级的数据量,以较低成本建置资料仓库事实上不难达成。

 

深圳烟酒公司在建置BI系统时,预算是400万元,当时一些软件大厂认为这样的预算连数据仓库都不够,于是就没参与招标。后来负责导入的叡扬信息,便是使用SQLServer作为深圳烟酒的数据仓库。对深圳烟酒来说,它们实际使用的数据量来实在没有必要建个大仓库,里面却只放置一点点数据,不符合ROI。而选用微软数据库的永准公司,在报表产出效能一样可以达到他们的需求,因此昂贵的资料仓库实在不是建制BI系统的门坎。

 

那些高贵的数据仓库究竟贵在哪里呢?以NCR的Teradata或SybaseIWS来说,它们针对BI查询、分析的特性进行优化,和传统关连式数据库的查询效能可能差距数十倍以上,这些在数据量大时将更形明显。

 

因此企业在建置数据仓库时,可以对数据量与查询效能进行评估,不必然要花大钱才能建置数据仓库,别让数据仓库的迷思成为通向BI的绊脚石。

粤公网安备 44030502004802号