Excel数据分析的流程与方法

1.明确问题

数据来源:Baby Goods Info Data

 

①(sample)sam_tianchi_mum_baby_trade_history.csv(商品信息)②(sample)sam_tianchi_mum_baby.csv(婴儿信息)

提出问题:

(1) 不同类别产品的销量比较

(4) 不同性别婴儿的产品销量情况

(5) 不同性别婴儿在不同月份的销量情况

(7) 不同年龄段婴儿产品的销量情况

(8) 各年龄与不同性别婴儿对产品销量的影响

2.理解数据

2.1、理解字段含义

表①sample)sam_tianchi_mum_baby_trade_history.csv(商品信息)中共有7个字段,各自的含义是:

用户购买商品信息

cat1:商品属于哪个类别;如果把商品以类别划分,就会大概知道用户大多数时间喜欢逛哪类商品,可观察到浏览的频率高低,通过分析字段,可了解用户的具体喜好。

表②(sample)sam_tianchi_mum_baby.csv(婴儿信息)共有3个字段(其中user_id(用户ID)是从表①中部分截取的信息):

birthday:出生日期;可以了解用户婴儿的年龄段,分年龄段分析真实数据情况,商品的下单率是否与各年龄段有直接关系,即相关性分析;

2.2、数据集排版

通常拿到的Excel原始数据的格式比较乱,不利于观察和理解数据,有必要对数据进行排版操作,通常会作自动换行+设列宽/行高处理:

原始数据

注:自动换行+设列宽/行高应该在工作表全选(点击工作表左上角行列交叉处的三角形)状态下操作。

自动换行+设列宽设行高排版结果

3.数据清洗

3.1、数据清洗及其步骤

数据清洗也叫数据的预处理,处理好数据后才可以进一步对数据进行分析(文章数据清洗基于office2016)。

数据清洗共有7个步骤:选择子集、列名重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理。

3.1.1、选择子集

注意:"隐藏"的目的是为了保留原始数据。

隐藏列单元格的方法:选中目标列单元格-鼠标右键-隐藏列单元格;

恢复显示列单元格的方法:全选工作区-开始-格式(单元格中)-取消隐藏列。

隐藏property(E列单元格)

3.1.2、列名重命名

数据集第一行的数据表示列名(或列标),鼠标左键双击列名单元格即可修改列名。

3.1.3、删除重复值

操作步骤:数据-删除重复值(数据工具中)-扩展选定区域-取消全选-选择auction_id-确定。

注意:删除auction_id(列标)列中的重复值时,数据集中的其他数据的位置也将随之改变。

3.1.4、缺失值处理

缺失值的处理有3种方法:

①补全缺失值;②删除缺失值;③替换缺失值(用平均值或统计模型计算结果替换);

查找列单元格中的缺失值:开始-查找和选择-定位条件-空值-确定。

注:相同信息可以在查到缺失值后用快捷键处理:键入信息-Ctrl+Enter自动填充。

3.1.5、一致化处理

①分列

分列有抽取数据的功能;还有把字符串数字转换成数值数字、处理日期格式的功能;

❶字符串数字转换成数值数字的分列操作步骤:

ⅰ、先把字符串数字一列数据复制粘贴到空白列。

ⅱ、再进行分列(选项卡数据中)操作:

字符串数字粘贴到空白列分列结果

❷日期数据分列操作步骤:

数据-分列(数据工具中)-分隔符号-选择(或自定义)分隔符符号-设置列数据格式(选择日期YMD)-完成。

这时可能出现格式问题,再单元格设置:

分列+设置单元格格式处理日期格式结果

注意:在设置分隔符符号时,务必保证符号与原数据中的符号一致;

分列抽取数据后列名(或列标)需手动键入;用excel做crm

②截取

Excel中截取数据的公式主要有LEFT、RIGHT、MID,同时需要配合使用公式FIND截取数据。

这4个公式的调用方法:

FIND():

FIND有2个参数,即字符(或字符串、字符串组)名、所查单元格的名称。

FIND("字符/或字符串/字符串组)名",所查单元格的名称)。

FIND()输出值为所查字符(或字符串/字符串组)第一个位置,结果为一个数字。

LEFT():

LEFT有2个参数,即单元格名称、所截取数据长度。

LEFT(单元格名称,所截取数据长度(FIND("所截取字符或字符串后一个字符",单元格名称)-1))。

截取出生日期birthday和日期day中的年,以便后续进行年龄计算:

LEFT截取年LEFT截取结果

再左键双击填充柄(K2单元格右下角十字架),列单元格自动填充公式 。

RIGHT():

RIGHT有2个参数,即单元格名称、所截取数据长度。

RIGHT(单元格名称,所截取数据长度(LEN(单元格名称)-FIND("所调取字符前一个字符",单元格名称)))。

MID():

MID有3个参数,即单元格名称、截取字符起始位置、截取字符或字符串的长度。

MID(单元格名称,截取用excel做crm字符起始位置(FIND("所调取字符或字符串前一个字符",单元格名称)+1,截取字符或字符串的长度(LEN(单元格名称)-FIND("所调取字符或字符串前一个字符",单元格名称)-所截取字符或字符串后面字符串的长度)))。

注意:MID()公式适合截取位于字符串中间的字符(或字符串)。

③筛选

数据中的筛选功能可以独立显示出需要的数据,如异常值、目标值等;异常值产生原因主要有:通常会存在字母大小写产生的异常值、公式不适用等;

如:字母大小写产生的异常值处理方法:

用开始-替换(查找和选择中)功能把大写字母K替换成小写字母k:

3.1.6、数据排序

排序功能的对象是数值数字,分为升序和降序;操作方法:开始-排序-(排序和筛选中)。

点击排序即可完成对数据的降序处理:

⑦异常值处理

数据集中的异常值主要包含计算异常值、字符串异常值(需要筛选)等。

对异常值的处理方法主要有保留、修订、删除等。

通过插入数据透视表对异常数据进行处理。

数据透视表原理:

数据分组(Split)→应用函数(Apply)→组合结果(Combine)

下图对年龄与销量建立数据透视表:

数据分组:年龄

应用函数:计数项buy_mount

组合结果:

降序排列计数项buy_mount:用excel做crm

婴儿年龄为28岁,显然是异常数据,作删除处理。

3.2、处理日期数据:

日期数据格式在3.1.5一致化处理-①分列-❷日期数据分列中已做过介绍。通常先用分列处理,再设置单元格格式的日期格式:

下图用另外一种方法DATEDIF()公式计算年龄:

DATEDIF(小日期单元格名,大日期单元格名,"Y")

再左键双击填充柄(P2单元格右下角十字架),列单元格自动填充公式 ,出现NUM!,错误产生的原因是DATEDIF()第一个日期参数比第二个日期参数大;此时需要筛选出来,对出现NUM!的单元格结果调整这两个日期参数的顺序。

自动填充后出现NUM!出现NUM!值原因调整两个日期的位置处理结果

或把出现NUM!的数据统一标位未出生

3.3、VLOOKUP关联查询

3.3.1、VLOOKUP()有4个参数:

Lookup_value:找什么(值的归属);

Table_array:在哪里找(源文件内);第一个列单元格必须跟Lookup_value的值属性相同;

Col_index_num:哪一列(源文件内);

Range_lookup:精确找(键入0即false)还是近似找(键入1即true);一般没有涉及到查询范围的问题都会用到精确查询。

3.3.2、用excel做crmVLOOKUP的作用:通常用来关联查询和数据分组(本质上依旧是关联查询)

3.3.3、VLOOKUP关联查询分类:簿间关联(不同工作簿)、表间关联(同一工作簿)、表内关联(同一工作表)。

3.3.4、VLOOKUP3类关联查询的注意事项:

①簿间关联,Table_array:在哪里找(源文件内),源文件工作簿的名称和后缀名必须都要有;源文件名称为英文须要加上单引号‘ ’和中括号[ ]。再自动填充公式即可完成簿间关联查询。

VLOOKUP簿间关联查询

②表间关联(同一工作簿),Table_array:在哪里找(源文件内),源文件的后缀名不再需要。

③表内关联(同一工作表),Table_array:在哪里找(源文件内),源文件的名称和后缀名都不再需要。

3.3.5、VLOOKUP数据分组

表间分组(同一工作簿),源文件的后缀名不再需要;实际为表间关联查询。

表内分组(同一工作表),源文件的名和后缀名都不再需要:实际为表内关联查询。

至此,数据集的数据清洗操作完成。

4.数据分析及数据可视化

数据分析一般都要借助数据透视表完成,以下建立数据透视表分析业务数据:

(1) 不同类别产品的销量比较

结论:店铺商品有6个类别,其中排名前3的类别为【28】37%、【50014815】26%、【50008168】25%;其他3类加起来也才用excel做crm

总结:2013年和2014年的销量远远大于2012年和2015年的销量,原因:2012年和2015年的销售数据缺失。

(4) 不同性别婴儿的产品销量情况

其中,2表示性别不详,按比例替换成0或1。

(5) 不同性别婴儿在不同月份的销量情况

结论:从6月起到11月,婴儿用品的销售量逐渐加大,其中11月份的销量达到峰值,用户需求量在这个月份急剧增大。

结论:男婴和女婴主要在类别为【28】、【50014815】、【50008168】的需求量比较大。

(7) 不同年龄段婴儿产品的销量情况

结论:从婴儿还未出生到3岁这个阶段对产品的需求量比较高。

(8) 各年龄与不同性别婴儿对产品销量的影响

结论:产品销量在男婴或女婴在1岁时的需求都是最大的,产品仓储量务必在这个月保持充足用excel做crm

结论:婴儿在出生后的一段时间内(即0岁)对产品类别【50014815】的需求尤其大。在1-3岁时对产品【50008168】的需求次之。

最后,教大家一个简单拖拽创建表单和生成报表的方法。使用简道云表单在线创建“云表格”,通过简单拖拽,即可制作出一个个柱形图、折线图、饼图等图表,1分钟实现数据可视化分析!非常方便~

THE END
Excel数据分析的流程与方法
1.明确问题 数据来源:Baby Goods Info Data   ①(sample)sam_tianchi_mum_baby_trade_history.csv(商品信息)②(sample)sam_tianchi_mum_baby.csv(婴……