什么是数据库房?和数据库的差别是什么?

知识库建设方案,知识库系统,企业知识库

数据库房是一个面向全国主轴的(Subject Oriented)、软件系统的(Integrate)、相对稳定的(Non-Volatile)、反映发展史变动(Time Variant)的数据子集,它用作全力支持企业或组织的决策分析处置。数据库房是为的是易于布季夫分析和多维度展现出而将数据按某一的商业模式进行储存所创建起来的关系型数据库,它的数据基于OLTP源系统。

首先,用作全力支持决策,面向全国分析型数据处置,它有别于企业原有的操作型数据库;其二,对数个直链的数据源有效软件系统,软件系统后按照主轴进行了并购,并包涵发展史数据,而且放置在数据库房中的数据一般无须修正。

 

数据库房的基本构架

数据库房系统数据库系统:数据源-> ETL -> 数据库房储存与管理-> OLAP -> BI辅助工具

数据源

数据库房系统的数据原动力,一般来说主要包括企业多类别型信息,主要包括放置于RDBMS中的各种业务处置数据和多类别型文件格式数据;多类别型法律法律法规、消费市场信息和竞争者的信息之类。

在网络常用的产品中,一般数据来源还有产品端数据,主要包括订货科川业务类,日志科川使用者行为类,角色科川使用者肖像类和店家属性类。ETL是将业务系统的数据经过抽出、冲洗切换之后读取到数据库房的操作过程,目的是将企业中的分散、杂乱、标准不武一的数据资源整合到一起,为企业的决策提供分析的依照。企业信息数据库在消费市场往前发展的操作过程中,会延展出来很多捷伊需求和变动。有时为的是临时性全力支持这类决策和功能的监视,必须采用这些原先无此计划中的数据类别。

冲洗与切换:

数据冲洗的各项任务是过滤器那些不符合规定的数据,将过滤器的结果交予业务主管部门,证实与否过滤器掉还是由业务单位修正之后再进行抽出。冲洗的数据类别: 不完备数据,严重错误数据和多次重复数据。这种情况在对Log日志数据的冲洗比较常用。如外卖早期通过数据探查发现了很多记录的缺失和埋点的严重错误。幸而发现的早,并没有造成大量的数据缺失和严重错误。数据切换的内容主要包括编码切换(m/f->男/女),字段切换(balance->bal),度量单位的切换(cm->m),数据粒度的切换。业务系统数据储存非常明细的数据,而数据库房中数据是用分析的,不需要非常明细,会将业务系统数据按照数据库房粒度进行聚合.商务规则的计算:不同企业有不同的业务规则,不同的数据指标,在ETL操作过程,将这些数据计算好之后储存在数据库房中,供分析使用(比如KPI)。企业信息数据库

知识库建设方案,知识库系统,企业知识库

读取:

经过前两步处置后的数据可直接读取入数据库房

数据的储存与管理:

数据的储存和管理是整个数据库房的核心,是关键。数据库房的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。从数据库房的技术特点着手分析,来决定采用什么产品和技术来创建数据库房,然后针对原有各业务系统的数据,进行抽出、清理,并有效软件系统,按照主轴进行组织。数据库房按照数据的覆盖范围可以分为企业级数据库房和部门级数据库房(一般来说称为数据集市)。

OLAP伺服器

对需要的数据进行有效软件系统,按布季夫模型予以组织,以便进行多维度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处置)、MOLAP(布季夫在线分析处置)和HOLAP(混合型线上分析处置)。ROLAP基本数据和聚合数据均放置在RDBMS之中;MOLAP基本数据和聚合数据均放置于布季夫数据库中;HOLAP基本数据放置于RDBMS之中,聚合数据放置于布季夫数据库中。

 

构建数据库房五步方法

 

一 、确定主轴

即确定数据分析或前端展现出的主轴(例:某年某月某地区的啤酒销售情况)。主轴要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主轴时要综合考虑.

二、确定量度

确定主轴后,需要考虑分析的技术指标(例:年销售额之类)。它们一般为数据值型数据,其中有些度量值不可以汇总;些可以汇总起来,以便为分析者提供有用的信息。量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性指标(KPI)的设计和计算。

三、确定事实数据粒度

确定量度之后,需要考虑该量度的汇总情况和不同维度下量度的聚合情况.例如在业务系统中数据最小记录到秒,而在将来分析需求中,时间只要精确到天就可以了,在ETL处置操作过程中,按天来汇总数据,些时数据库房中量度的粒度就是天。

知识库建设方案,知识库系统,企业知识库

如果不能证实将来的分析需求中与否要精确的秒,那么,我们要遵循最小粒度原则,在数据库房中的事实表中保留每一秒的数据,从而在后续创建布季夫分析模型(CUBE)的时候,会对数据提前进行汇总,保障产生分析结果的效率。

四、确定维度

维度是分析的各角度.例:我们希望按照时间,或者按照地区,或者按照产品进行分析。那么这里的时间,地区,产品就是相应的维度。基于不同的维度,可以看到各量度汇总的情况,也可以基于所有的维度进行交叉分析。企业信息数据库

维度的层次(Hierarchy)和级别(Level)。例:在时间维度上,按照度-季度-月形成了一个层次,其中年 ,季度 ,月成为的是这个层次的3个级别。我们可以将产品大类-产品子类-产品划为一个层次,其中包涵产品大类、产品子类、产品三个级别。

3个级别设置成一张数据表中的3个字段,比如时间维度;我们也可以使用三张表,分别保存产品大类,产品子类,产品三部分数据,比如产品维度。创建维度表时要充分使用代理键.代理键是数据值型的ID号码(每张表的第一个字段),它唯一标识了第一维度成员。在聚合时,数值型字段的匹配和比较,join效率高。同时代理键在缓慢变动维中,起到了对新数据与发展史数据的标识作用。

五、创建事实表

在确定好事实数据和维度后,将考虑读取事实表。业务系统的的一笔笔生产,交易记录就是将要创建的事实表的原始数据.

我们的做法是将原始表与维度表进行关联,生成事实表。关联时有为空的数据时(数据源脏),需要使用外连接,连接后将各维度的代理键取出放于事实表中,事实表除了各维度代理键外,还有各度量数据,不应该存在描述性信息。企业信息数据库

事实表中的记录条数据都比较多,要为其设置复合主键各蛇引,以实现数据的完备性和基于数据库房的查询性能优化。

简道云知识库,像书一样沉淀团队知识,像水一样促进内部协作,打造知识型团队。打造内部百科:老员工撷取知识与经验,新员工快速查找与学习;促进项目协作:透明各项任务当前进展,沉淀各项任务相关资料;人人可用的简道云知识库:为每个岗位解决知识管理问题。“企业无法留住所有人才,但可以留住所有的知识”

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,如发现任何内容侵犯了您的权益,请第一时间联系小编邮箱jdyfebkz@163.com 处理。

知识库建设方案,知识库系统,企业知识库

THE END
什么是数据库房?和数据库的差别是什么?
数据库房是一个面向全国主轴的(Subject Oriented)、软件系统的(Integrate)、相对稳定的(Non-Volatile)、反映发展史变动(Time Variant)的数据子集……