本文为某电商订单数据处理简单示例,旨在提升对电商数据分析的多元化思路训练。
注:本文会不定时进行补充更新。
数据来源:https://www.kaggle.com/
数据概况
数据行大小 | 3283 行(A_W,含中文翻译对照项) |
---|---|
数据参数 | 订单日期、订单号、运输模式、客户ID、客户类型、国家、城市、州、区域、产品ID、产品类别、子分类、产品名称、销售额、数量、折扣、利润。 |
说明 | 本文数据为第三方数据,仅为学习用途,不做解释。因对产品了解不充分,本文不对具体产品进行分析。 |
问题概述
一般情况下,在处理和分析数据时,都是存在一个或者多个目的。比方说,我需要了解某区域近十年的经济发展情况,那么就要通过收集某区域近十年公开的经济数据指标来进行深度分析,通过分析来得出最终有关于经济发展的结论。数据分析的目标往往就是得出相关的结论,通过数据来探索数据背后映射的问题和趋势,这对解决当前实际困难和促进发展具有实用性意义。
对于实际业务场景中的数据分析,一般更具有实用性意义。比如,关于电商数据的分析,在相当程度上能够促进业务的有效调整和业绩增长。因此,在对该类型数据的分析中,通常需要解决以下问题:
- 数据的基本情况,包括数据来源及背景,时间、对象、产品及相关参数介绍,数据的基本处理方法等。
- 问题预设,提出对数据相关的问题。如:订单数据的表现特点及存在的问题等。
- 数据分析的处理过程,包含具体的处理方法介绍,侧重点分析等。
- 数据结论概述,包括对数据进行验证分析,如年度数据对比。对预设问题进行答复,并总结流程等。
数据处理
初步清洗数据
最初得到的数据是原始数据,没有任何改动的。当然,也会存在一些问题。比如,本示例数据中的订单日期原先是以「2020010120」的形式出现的,即「DMY」的形式。这里需要使用「数据分列」的功能对订单日期进行拆分,并通过修改格式使其变成「2020/01/01」的日期表现形式,更为具体。
除此之外,还使用了「VLOOKUP」函数对英文列表项进行了翻译,如:运输模式、客户类型、产品类别等,方便后续分析。值得注意的是,在最开始的时候,一般都要对存在的数据空值项进行清除。
源数据 来源:Yonejian
数据简要分析
1.2020年月度订单数量(非产品数量)及增长情况:
在分析订单之前,首先要对源数据进行处理。3283 行数据中,包括了大量的重复订单,即同一订单包括了好几样不同的产品,它们都归为一笔订单。去重后的订单数量应为 1672 笔。
借助数据透视表,可以简单分析 2020 年每个月的订单数量及增长情况。如图所示,本年度中,年中(4-8月)的订单数量相对持平,均处于较为稳定的状态。其中,3 月和 9 月的订单增长率均超过了一个点。由于数据来源于第三方,分析过程缺乏足够的信息,难以进一步剖析订单异常增长的原因。
当然,我们可以对其原因进行猜测,如:平台促销(国内可参考 618 和双十一)、季节影响、热点事件等等,均可对订单增长带来异常波动。另外,可对订单增长异常部分具体内容进行猜测,具体有: 订单增长部分主要为哪类产品,其客户群体有哪些等方面 。
2020年月度订单及增长情况 来源:Yonejian
2.2020年的销售额与利润情况:
通过上述的方式,对 2020 年的销售额与利润增长情况进行简要的分析。由图可以看到,在订单数量增长的影响下,3 月份的销售和利润增长都十分可观。其中,销售增长率大约为 2 个点,利润增长率为 8 个点。5 月份的利润增长也较为可观,大约为 6 个点,但结合订单数量来看,5 月份的订单数量与上个月的订单相对持平,并无太大变化。因此,从 5 月份的利润来看,与平均水平相差无几,利润增长的突出表现更多是由于 4 月份的销售及利润表现较差所导致的。
从时间维度,结合其他因素对销售额表现情况进行分析,有利于发现存在的问题,并对实际的运营工作提供参考意义。
由于存在同一客户有多个不同订单的情况,通过筛选重复后的「客户ID」,得出客户的数量为 693 人,结合年销售额计算得出客单价为 1051.997342 元。
2020年销售与利润增长情况表 来源:Yonejian
2020年销售与利润增长情况图 来源:Yonejian
3.销售额与客户类型、产品类别的关联情况:
分析销售额与客户类型、产品类别的关联情况主要在于了解不同客户、产品对销售额的贡献情况。从示例数据来看,客户类型中,消费者对销售额的贡献最高;产品类别中科技类对销售额的贡献最高。简单来说,主要客户群体还是以消费者为主。从销售额来看,消费者的购买消费中办公、家具和科技三类产品的比例相对均衡;家庭办公室客户的消费以科技类产品为主;公司客户则兼顾办公与科技类产品。
从这个角度可以简单了解不同客户群体,具体的购买力情况。另一方面,也可以充分说明不同类别的产品对销售的影响作用。由于源数据并不充分,无法进行深入分析。例如,可以通过对客户群体的职业、年龄等要素建立消费者画像进行深度分析,这对于提供消费者服务有一定的参考意义。当然,还可以对具体的产品类别进行再分类,如办公类目下的具体产品有哪些,分别对消费额的贡献情况又是多少。
另外,值得注意的是,销售额的数据表现不一定说明客户对某类产品的购买数量更多。因为这存在不同产品不同价格的情况,相同数量的产品,因其价格差异会导致销售额的差异。因此,销售额的数据表现更多体现在产品贡献率或客户贡献率等指标上 。
销售额与客户、产品类别关系 来源:Yonejian