作者简介
@ Zhihu: Whale Song
电子商务行业数据分析师
为头部品牌提供数据咨询服务。
热衷于学习和分享
“数据创造者联盟”成员
如果我是一艘在数据海洋中乘风破浪航行的船,那么明确的职业目标就是航行的方向,统计业务思维等知识就是船体的紧密结构,Excel、Python等工具的使用就是航行的动力。与前两篇文章不同的是,今天我们将重点讨论如何使用Excel进行实际操作,这将伴随着思路的修正和发散。
首先,我们需要明确数据分析的步骤。没有有序的秩序,很容易在海量数据中陷入混乱。
其次,请让我描述一下我是如何按照上面的步骤使用Excel进行探索性分析的。本期主要是前四步(明确问题、了解数据、数据清洗和数据分析,其余请关注后续推送)。
本期实战报告:淘宝、天猫上购买的宝贝用户的交易明细及用户信息表;
数据来自:https://tianchi.aliyun.com/dataset/dataDetail? dataId = 45
01 澄清问题
拿到手头的数据后,不要急着去清理分析,而是先根据自己掌握的信息进行头脑风暴。通过这些数据,我们可以大致确定是什么问题,经过脑图(比如Xmind)列出的诸多猜想后,按照重要性排序。
为什么和如何?老话说得好,磨刀不误砍柴工,先把问题认识清楚,有利于后面的分析,而不是急于上手,费时费力。最后可悲的发现得出的结论和要分析的方向相反。
根据现有信息,我们可以假设以下问题有待验证:
02 了解数据
聊猴子数据分析里的短视频,印象深刻。她将“理解数据”比作“洋葱和大蒜姜末”以及烹饪前准备的其他调味品。对于数据分析的大餐,要把表中不同字段背后的含义搞清楚,否则菜就不对了。
03 清理数据
切记:数据清理不要直接在原表单上处理,可以复制表单重新生成,防止原数据被破坏,影响工作效率。
选择一个子集:可以遵循“二八”原则,面对众多领域选择核心领域
以商品信息表为例:七个字段中,商品属性乍一看分析价值不大,可以隐藏,然后根据具体情况如果有用可以隐藏。
重命名列名:一般情况下,数据库导出的数据字段名可能是英文的,可以改用中文,让自己和他人更容易理解。
翻译成:
缺失值处理:一个容易忘记的环节,尤其是遇到数据量大的时候,一定要检查。可以使用countblank()函数,有四种方式完成:如果缺失值很少,可以手动完成,删除,用平均值和统计模型计算的值替换。
本文使用的两个报表中产品信息表的[产品属性]缺失,但此列是隐藏的,所以不添加。
统一处理:批量处理表格中的非标准数据,需要将两个表格中的日期数据处理成正确的、可计算的日期数据,可以先用len()+left/mid/right()+find()函数组合,这个例子中的数据比较整齐。
04 数据分析
在分析部分,我主要使用Excel的数据透视表、描述统计和数据分析中的Vlookup()函数,具体如下:
产品信息表的分析思路:在进行一级品类的基本汇总统计时,发现不同品类的销量差异明显,该表的销量描述统计显示极值差异非常悬殊。在此基础上,将销售量列分组生成新字段【订单类型】,结合一级品类、订单类型、采购日期三个维度(注:采购数量默认统一为当天的一单)。
提取六个一级品类的整体销量和对应的销量,利用数据分析中的描述性统计返回结果如下(共三列,后两列选取标准差最低和最高的两个一级品类):
从以上可以得出不同品类之间存在销量波动的结论,也可以初步得出品类之间的差异与主要品类之间的销量波动密切相关。
使用Vlookup()模糊匹配进行分组。根据电商的业务场景,有批发订单的可能。5以内,属于个人常规订单范畴。六个及以上订单算作批发订单,根据实际购买数量分为小、中、大三种。详见以下截图:
通过对订单分类的透视统计,数据和发现如下:
看看订单类型和一等品类的关系:
根据上表,是否可以推测目前平台的发展重点在于大批量订单的引导?
初步论点如下:
如果排除10000的数值,会发现14年常规订单仍呈上升趋势,占比52%;
结合一级品类和13/14自然年的组合分析可以发现,14年“5004815”一级品类超越13年排名第一的“28”,成为14年的Top1,对比两年的发展速度,“5004815”增长300%,“5008168”增长近200%。
根据上图,如果我们深入挖掘,可以发现“5004815”仍然与这10000单有关。剔除10000的数值,14年各品类整体销量仍达到141%的增速,Top3中的“28”增速较慢。
用户信息表的分析思路:[/s2/]与产品信息表相比,用户的数据量较少,可视为产品的小样本。使用Vlookup()进行多表关联后,拼接字段后,可以根据用户ID的唯一性分为两个表:一个不包含交易信息(字段包括:用户ID、购买日期、性别、出生日期、出生日期)另一个包含交易信息(回购交易记录会在Vlookup产品信息表中找到)。根据新增字段“年龄分类”,按年龄分类、性别、用户ID、购买数量进行多维度分析。
考虑到文章篇幅较长,这部分分析简单呈现,后续推送中可以看到:
结合下图2可以看出,婴儿的年龄集中在0-6岁,占90%,女婴比例略高于男婴。
下图显示增加了“采购数量”字段。可以发现,在男女宝宝比例相近的前提下,女宝宝的销量是男宝宝的近两倍,说明女宝宝的消费需求更强。
根据上图,我们可以进一步分析男女宝宝在各个一等品类的选择上的特点。从下图可以看出,Top1的“50014815”显示女宝宝是消费者的主要贡献者,可以推断该品类的产品主要以女宝宝为主,其次是第二和第三。男宝宝和女宝宝的人气差异没有Top1那么明显,但是女宝宝的比例更高。
最后总结前四步。看上面的图表,更多的是数据解读和推测,并没有根据数据提供下一步的落地建议。况且分析上的思路比较窄,后面还会进一步调整优化。在数据面前,需要有好奇心,可以从已经挖到的点进一步往下钻,达到剥丝剥茧的程度。