连用这23种图象,让你的数据分析胜人一筹

 
 

一、数据分析目的有三种:申辩与积极探索

人类文明大脑对听觉信息的处置强于对文本的处置,因此,用眼睛看的数据是更明晰有效地传达与沟通交流信息的一种方式,核心是有效地传达信息。那么采用图象、绘图和设计原素把数据进行可视化,可以帮你更容易的说明数据商业模式、趋势、统计数据规律性和数据有关性,而这些信息背后的信息在其他呈现出方式下可能无法被发现。

依照需要传达的性质和目的,我们将数据可视化分割为申辩型和积极探索型。前者一般是在正式公开场合向别人传达信息,比如说你想借助手中的大量数据,报告每半年产品销售情况;后者是当我们想知道为什么前段时间产品销售表现欠佳,于是,积极探索原因在于时节性市场波动或是是打折工作力度不如?(本图象采用Data Analytics数据可视化软件制作,原数据已做Damazan处置,下同)在线配置文件

 

实际上,以积极探索为最终目标的可视化又可分为三种,第一种是Courtomer范例中提及的借助数据,用图象来证实或否定你的假设;第二种是如果对产品销售业绩下滑的原因毫无头绪,提不出任何假设呢?就要仔细分析数据,寻找其中的规律性、趋势和异常。

例如,对比产品销售业绩和产品销售员负责区域面积,有何不同?不同地区的时节性市场波动有何异同?天气对产品销售造成哪些影响?这种开放性积极探索能带来新发现。开放性数据可视化积极探索,将有助于解答宏观的战略问题,如收入为何下降、效率如何提升、客户与公司应如何互动等。

二、积极探索型数据可视化

积极探索型数据可视化分为两类:一是假设检验,一是从数据中寻找规律性、趋势和异常。前者的最终目标很明确,后者则相对发散。数据体量越大、复杂度越高、未知因素越多,积极探索工作的开放性就越高。

1.假设检验

在这类数据可视化积极探索中,你要回答下面两个问题中的一个:我设想的情况是否属实?如何用不同方式传达这一信息?在线配置文件

在进行求证时,数据范围相对可控,所采用图象类型较为常规;当然,若想以新颖方式呈现出信息,也可尝试较少见的图象。求证型图象一般不用于正式公开场合;你要先自己找到正式展现所需的图象。因此,你的时间不应花在设计上,而应快速尝试不同模板,找到最好的数据听觉化方案。

2.开放性积极探索

更多时候,针对数据的开放性积极探索是数据科学家和商业智能分析师的领地,不过新出现的辅助工具例如 DataHunter 旗下的Data Analytics 软件让其别人都可以参与进来。由于缺少明确最终目标,开放积极探索型图象包含的数据范围较广,个别情况下可能会容纳多组数据,或建立自动更新数据的动态系统,也可用于统计数据建模。开放性积极探索很值得尝试,因为它经常带来独一无二的洞见。

 

三、申辩型数据可视化

我们日常工作中接触最多的是申辩型数据可视化,主要涉及常用图象,一般可在展现中直接采用。这些单纯图象包括线状图、柱状图、饼状图和散点图等。这里的可视化需要做到简洁。一幅图象应该用有限几个变量,明晰传达一个信息。比如说最终目标很明确,为电视观众确认并介绍背景信息。

此类图象常用于正式展现,对明晰度和逻辑性要求也很高。正式展现通常时间有限,如果图象设计不理想,介绍人就必须停下来说明,而图象中的信息本应一目了然。这并不是说申辩性图象不应引发讨论,但讨论应针对图象传达的经营理念,而非图象本身。接下来数猎哥按照构成分析、对比分析、分布分析、关系分析在线配置文件,4个方面,为大家介绍几种常见的数据可视化图象。

 

四、常见可视化图象之一:构成分析

1.饼图/环形图

饼图经常表示一组数据的占比,需要数值维度。如图,各扇形面积代表各类型装修材料产品销售额的大小,整体为装修材料总产品销售额。右侧环形图为饼图的变种,中心区域可展现数据或是文本信息。

 

饼图也是有缺陷的,例如30%和35%在饼图上凭肉眼是无法分辨出区别的。当类别过多,也不适宜在饼图上表达。因此在采用饼图时我们需要顺时针降序排列,同时维度取值在10个以内。

2.玫瑰图

玫瑰图是饼图的变种,用来对比不同类别的数值大小,在数值相差不大的时候采用。如图,广东省、江苏省、山东省的GDP数额差别不是太大,如果只是采用常规饼图,无法对比三者的大小,采用玫瑰图则很显然广东省数值>江苏省>山东省

 

3.旭日图

旭日图也是饼图的变种,表现整体在各个维度上的构成,以及维度与维度之间的从属关系。如图,可以清楚看到整体的产品销售额在三大类产品的分布,而每类产品的各品牌产品销售额区别也可以直接对比,同时也可以看到每类产品的品牌分布。在线配置文件

 

4.仪表盘

模仿汽车仪表盘,采用绝对值与相对值结合的方式,展现某个指标的完成情况,在项目进度,计划完成度较常见。只适合展现数据的累计情况,不适用于数据的分布特征等,同时一般超过100%后不太好表现。

 

5.矩形树图

当我们想表达过多类型的数据时,可以采用矩形树图,它展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,每个矩形代表一个聚合类,颜色的深浅和面积的大小代表这个聚合类的大小。如图,比如说电子商务、产品产品销售等涉及大量商品品类的分析等。

局限是不适合展现不同层级的数据,比如说组织架构图,每个分类不适合放在一起看占比情况。且当以面积表示大小,当数值相近时人眼无法辨别,当然可通过填充数值弥补。

 

6.瀑布图

采用绝对值与相对值结合的方式,展现各成分构成情况,更多的用于核心指标的分解,适合展现数据累积变动过程,局限是各类数据差别太大则无法比较。

如图核心指标为净利润,可以看到核心指标由收入和生产成本计算得出,而收入方面营业收入占据主要,支出方面营业生产成本占据主要。我们可以提升营业收入或降低营业生产成本来提升公司净利润。

 

五、常见可视化图象之二:对比分析在线配置文件

1.柱状图/多指标柱状图

柱状图是一种应用得很广泛的绘图,它表征分类型变量与数值型变量的关系,常用于多个维度的比较和变动。柱形图至少需要一个数值型维度,通常文本维度/时间维度通常作为X轴,数值型维度作为Y轴。

一般需要排序,如果分类型变量是有序的,按照它本身的顺序排列即可,如果分类型变量无序,那么则根据数值型变量的大小进行排序,使柱状图的高度单调变动。如左图,各类型装修材料的产品销售数量对比,右图为各类型装修材料的产品销售额及产品销售生产成本对比。

 

2.条形图/多指标条形图

类似柱状图,只不过两根轴对调了一下。因为有大量空白位置标示每个类别的名称,所以适用于类别名称过长的情况,但分类过多则无法展现数据特点。

 

3.象形图

以形象化的图片数量代表维度数值的大下,多用于具体实物的对比。如图,其中将办公用品、技术产品和家居产品用形象化绘图来代表其维度,让观众者很容易了解到这组数据的维度表示。

 

4.堆积柱图/堆积条图

用来比较同类别各变量和不同类别变量总和差异。需要注意的是堆积柱内各项间具有相同性质的维度分割,最好不要是不同的度量。如图,柱与柱之间表示各区域订单数量对比,华南订单数量可以看到是由三个产品订单数量组成。可同时对比三个类别产品在各区域订单数量。在线配置文件

 
 
 

5.折线图

折线图是用来观察数据的趋势,主要展现数据随时间或有序类别的市场波动情况的趋势变动。对比时采用,常见时间维度对比。如果是无序类别则无法展现数据特点。

 

6.面积图

用面积展现数值大小,展现数量随时间变动的趋势。多用于时间维度的对比,其中堆积面积图中堆积部分需要是具有相同性质的维度分割。

 

7.雷达图

雷达图将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点,适用于了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异。它在商务、财务领域应用较大,常见于经营状况,财务健康程度。比如说对企业财务进行分析,分割出六大类:产品销售、市场、研发、客服、技术、管理。通过雷达图绘制出预算和实际开销的维度对比,会很明晰。另外在游戏中也应用广泛,如图游戏人物的各项数值对比。

 

这里需要注意雷达图的数据必须进行标准化处置,同时指标是正向且可以比较的,也就是指标代表越好,且当指标差异较大时,需要进行标准化,消除单位影响。另外雷达图是静态数据,不可能有时间维度,同时能表达的静态数据信息有限,线条不宜超过5条,指标不宜超过8个。

8.对比条图

两个项目在各个维度的对比时采用。如图展现了广东省、江苏省、山东省和浙江省在2015年与2016年的GDP对比,可以看到四省对比,广东省GDP较高,而2015年与2016年GDP对比,则2016年增长明显。在线配置文件

 

9.子弹图

对比条形图的变种,多用于对比实际与最终目标之间的差距。如图象现的是各乐行装修材料的产品销售额完成度,且均存在深度灰色以内,表现不理想。

 

10.双轴图

以左右两个Y轴的形式,展现同一维度下不同指标的情况。两个坐标轴的图象类型选择需要区分开。

 

11.帕累托图

双轴图变种,用来分析原因,确定产生问题的主要原因。如图可以看到,特殊节日和行业旺季是此次数据异常的最重要原因,两项占比达到了56%,可加强此阶段的打折,帮助销量增长。

 

12.漏斗图

漏斗图是流程转化分析,适用于关键业务环节数据比较,将各环节串联起来构成漏斗,量化流程内环节,追踪各环节转化率。转化是漏斗图主要表达的信息。例如在网站的用户行为分析中,如图,反映了报告浏览人数中,有5%的用户下载了此报告。在实际工作中,各种业务流程均可构建漏斗。

 

13.词云

 

六、常见可视化图象之三:分布

1.散点图/气泡图/四象限图

散点图在报表中不常用到,但是数据分析中比较常见。散点图通过坐标轴来揭示数据间的关系,发掘变量与变量之间的关联,当存在大量数据点,结果更精准,比如说回归分析。当数据量小的时候会比较混乱。气泡图是散点图的变种,它采用气泡代替散点图的数值点,面积大小代表数值大小。

如图采用产品销售额和利润来定位不同类别产品,位于右上角的产品为产品销售额高、利润也高的明星产品;左下角的产品销售额、利润都不高的产品,为滞销品。

 

2.地图

一切和空间属性有关的分析都可以用到地理图。比如说各地区销量,或是某商业区域店铺密集度等。一般用颜色深浅或气泡大小来展现区域范围的数值大小。比如说人口密度、各地区销量,或是某商业区域店铺密集度等。

 

3.箱线图

箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以明晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。假如你是一位网络电商分析师,你想知道某商品每天的卖出情况:该商品被用户最多购买了几个,大部分用户购买了几个,用户最少购买了几个。箱线图就能很明晰的表示出上面的几个指标以及变动。在线配置文件

另外企业产品质量管理、人事测评、积极探索性数据分析等统计数据分析活动也经常会被应用到,如图,可以发现,华北地区出现超出范围的异常值,可通过结合业务场景分析异常原因。

 

4.热力图

热力图可以用于对比两个维度的数值大小,用颜色深浅代表数值的大小。热力图在网页分析、业务数据分析等其他领域也有较为广泛的应用。如图展现了不同区域在不同时间的订单数量。

 

七、常见可视化图象之四:关系分析

1.桑基图

桑基图是一种特定类型的流程图,图中延伸的分支宽度对应数据流量的大小,它常表示信息的变动和流动状态。常用于能源、材料成分、金融等数据的可视化分析,还有网站用户行为路径的分析。如图,可以看到用户在登录后的行为,以及下一步行为。

 

2.关系树图

表现各个维度之间的关系,多用于组织架构分析,如图可以表现不同类型产品的组合方式。

 

3.关系图

表现各个维度之间的关系,及各关系间的关系强弱。比如说社交关系链、品牌传播、或是某种信息的流动。如图展现不同类型产品的产品销售额贡献情况,如办公产品的产品销售额由哪些产品贡献。在线配置文件

 
 
 

八、小结

数据可视化是借助绘图化手段,更明晰有效地传达与沟通交流信息的一种方式,在传达信息这个目的之下,我们就要恰当地进行选择,首先需要依照数据类型和目的选择恰当的图象类型。

当我们做数据可视化时,可以先对现有的数据进行分析,得出自己的初步结论,明确要表达的信息和主题(即,你通过图象要说明什么问题)。然后根据这个目的在现有的或你知道的图象信息库中选择能够满足你最终目标的图象类型。最后开始动手制作图象,并对图象进行美化、检查,直至最后图象完成。

 

 

最后,教大家一个单纯拖拽创建配置文件和生成报表的方法。采用简道云配置文件在线创建“云表单”,通过单纯拖拽,即可制作出一个个柱形图、折线图、饼图等图象,1分钟实现数据可视化分析!非常方便~

THE END
连用这23种图象,让你的数据分析胜人一筹
    一、数据分析目的有三种:申辩与积极探索 人类文明大脑对听觉信息的处置强于对文本的处置,因此,用眼睛看的数据是更明晰有效……