零基础入门Python·数据分析先导篇2——Excel分析销售数据
什么是数据分析
数据分析是指使用统计、算法和技术手段从数据集中提取有用信息和见解的过程。它涵盖了从收集、清洗、探索、建模到解释数据的一系列步骤,旨在帮助个人或组织做出更加明智的决策。数据分析可以应用于几乎所有领域,包括商业、科学研究、政府政策制定等。
数据分析的目的不仅仅是找到答案,更重要的是提出正确的问题,然后使用数据来验证这些问题的答案。随着技术的发展,数据分析工具和方法也在不断进步,从而使得从大量复杂数据中提取有价值信息变得更加高效和准确。
为什么要做数据分析
做数据分析有多种原因,主要目的是帮助个人、企业和组织做出基于事实的决策,优化操作和提高效率。以下是一些具体的理由:
-
更好的决策制定:数据分析提供了基于实际数据的洞见,这些洞见可以帮助管理层做出更明智的决策。通过分析历史数据和当前趋势,组织可以预测未来的发展方向,从而制定更有效的策略。
-
识别和解决问题:数据分析可以帮助识别业务流程中的问题和瓶颈。通过分析业务运作的各个方面,组织可以发现效率低下的原因,从而采取措施进行改进。
-
提高效率和生产力:通过优化操作流程和资源分配,数据分析可以帮助提高工作效率和生产力。例如,通过分析销售数据和库存水平,零售商可以更有效地管理其库存。
-
更好的客户理解和服务:数据分析可以揭示客户的行为、偏好和需求,帮助企业更好地理解其目标市场。这些信息可以用来设计更吸引人的产品和服务,提高客户满意度和忠诚度。
-
竞争优势:利用数据分析,企业可以发现新的市场机会,优化其产品和服务,从而在竞争中获得优势。通过对市场趋势的深入理解,企业可以快速适应变化,保持领先地位。
-
风险管理:数据分析有助于识别和评估潜在风险,使组织能够采取预防措施或制定应对策略。例如,通过分析金融市场的历史数据,投资者可以更好地理解投资风险。
-
创新和发展:数据分析可以揭示未被发现的模式和关联,激发新的思考和创新。这可以导致新产品的开发、新市场的发现或新业务模式的创造。
总的来说,数据分析使组织能够以数据为基础做出决策,而不是依赖直觉或经验。这种方法可以提高决策的质量、降低风险,并最终促进组织的增长和成功。
数据分析的通用流程
数据分析通常遵循一个通用的流程,尽管具体的步骤可能会根据项目的性质、数据的类型和分析的目标有所不同。以下是一个基本的数据分析流程,涵盖了从数据收集到结果呈现的各个阶段:
- 定义问题:明确你试图解决的问题或你想要从数据中得到的见解。这一步是整个数据分析过程的基础,确保你的工作有明确的方向和目标。
- 数据收集:根据你的分析目标,收集相关的数据。数据可以来自内部系统(如销售记录、客户数据库)或外部来源(如公共数据集、社交媒体)。确保你有足够的数据来支持你的分析。
- 数据清洗和预处理:数据往往不会完美无缺,因此需要进行清洗和预处理。这包括处理缺失值、异常值、重复记录等,以及可能的数据转换,以保证数据的质量和一致性。
- 数据探索:在这一阶段,你会对数据进行初步的探索和分析,以了解数据的基本特征和结构。这通常涉及统计分析、可视化等方法,帮助识别数据中的模式、趋势和异常值。
- 数据建模:根据问题的性质,选择合适的统计模型或机器学习算法来分析数据。这可能包括回归分析、分类、聚类等技术。在这一步,你可能需要调整模型参数,进行交叉验证来评估模型性能。
- 结果解释和验证:解释模型结果,验证模型假设和结果的有效性。这一步骤是确保分析结果可靠且有意义的关键环节。
- 报告和可视化:将分析结果以易于理解的形式呈现,通常包括图表、图形和报告。这一步骤的目的是向非技术受众解释你的发现,因此清晰和简洁至关重要。
- 决策和行动:基于分析结果做出决策或采取行动。这可能涉及改进产品、调整营销策略、优化运营流程等。
- 监控和维护:在实施基于分析的决策后,持续监控其效果,并根据需要对模型进行维护和更新。
这个流程是迭代的,而不是线性的。在分析过程中,你可能会发现新的问题或数据问题,需要返回到之前的步骤进行调整。通过不断的迭代,你可以逐步提高分析的准确性和效果。
注意
数据分析的流程是灵活的,可以根据项目的具体需求、数据的特性、分析的目的以及资源的可用性进行调整。这种灵活性允许分析师或团队根据实际情况选择最合适的方法和步骤。以下是一些可能导致流程调整的因素:
1. 项目的复杂性
- 简单的项目可能不需要复杂的数据建模步骤,而是更多依赖于描述性统计和数据可视化。
- 复杂的项目可能需要更多的数据预处理、复杂的模型构建和精细的结果验证。
2. 数据的质量和可用性
- 如果数据质量高且无需大量清洗,可以缩短数据清洗和预处理的步骤。
- 如果数据不完整或质量低,可能需要更多的时间和资源来清洗数据和补充信息。
3. 分析的目的
- 如果目的是探索性的,可能会更多地侧重于数据探索和可视化,而不是建立复杂的预测模型。
- 如果目的是预测或分类,那么数据建模和结果验证会成为重点。
4. 受众
- 报告和可视化的深度和复杂度将根据受众的技术背景和需求进行调整。对于技术背景的受众,可能需要更详细的数据和模型解释;而对于非技术受众,则需要更简洁明了的呈现方式。
5. 时间和资源的限制
- 在时间和资源有限的情况下,可能需要优先考虑分析的关键部分,或者寻找快速得到见解的方法。
6. 反馈和迭代
- 根据分析过程中收到的反馈,可能需要返回到之前的某个步骤进行调整,这可能会增加新的步骤或省略某些步骤。
每个数据分析项目都是独一无二的,因此理解这个流程的灵活性并根据实际情况进行调整是非常重要的。成功的数据分析不仅仅是遵循一个固定的流程,而是能够灵活应对项目需求和挑战,以确保分析结果既可靠又有用。
使用Excel进行陌拜电话和销售业绩的简单分析
在做办公室保姆期间,每天接触到最多的就是Excel。由于每天都要写,它不光促使我的Excel能力有所提升还让我扩展了除爬虫之外的另一Python技能。
使用Excel进行陌拜电话和销售业绩的简单分析可以按照以下步骤进行:
数据准备
假设你有三个表格,分别是:
电话陌拜次数表:记录每个销售的陌拜电话次数。
销售人员 | 1月 | 2月 | 3月 | 4月 | 5月 | 6月 |
---|---|---|---|---|---|---|
杨过 | 48 | 52 | 60 | 65 | - | - |
小龙女 | 30 | 35 | 40 | 45 | - | - |
郭靖 | 55 | 60 | 65 | 70 | 75 | 80 |
黄蓉 | 25 | 30 | 35 | 40 | 45 | 50 |
令狐冲 | 40 | 45 | 50 | 55 | 60 | 65 |
任我行 | 65 | 70 | 75 | 80 | 85 | 90 |
东方不败 | 20 | 25 | 30 | 35 | 40 | 45 |
林平之 | 35 | 40 | 45 | 50 | 55 | 60 |
赵敏 | - | - | - | - | 50 | 55 |
张无忌 | - | - | - | - | 45 | 50 |
通话时长表:记录每个销售的通话总时长。
销售人员 | 1月 | 2月 | 3月 | 4月 | 5月 | 6月 |
---|---|---|---|---|---|---|
杨过 | 320 | 350 | 400 | 450 | - | - |
小龙女 | 200 | 220 | 250 | 280 | - | - |
郭靖 | 400 | 430 | 460 | 490 | 520 | 550 |
黄蓉 | 180 | 200 | 220 | 240 | 260 | 280 |
令狐冲 | 250 | 280 | 310 | 340 | 370 | 400 |
任我行 | 480 | 510 | 540 | 570 | 600 | 630 |
东方不败 | 150 | 170 | 190 | 210 | 230 | 250 |
林平之 | 220 | 250 | 280 | 310 | 340 | 370 |
赵敏 | - | - | - | - | 360 | 390 |
张无忌 | - | - | - | - | 300 | 330 |
业绩表:记录每个销售的销售业绩。
销售人员 | 1月 | 2月 | 3月 | 4月 | 5月 | 6月 |
---|---|---|---|---|---|---|
杨过 | 12 | 14 | 16 | 18 | - | - |
小龙女 | 6 | 7 | 8 | 9 | - | - |
郭靖 | 15 | 17 | 19 | 21 | 23 | 25 |
黄蓉 | 5 | 6 | 7 | 8 | 9 | 10 |
令狐冲 | 8 | 9 | 10 | 11 | 12 | 13 |
任我行 | 18 | 20 | 22 | 24 | 26 | 28 |
东方不败 | 4 | 5 | 6 | 7 | 8 | 9 |
林平之 | 7 | 8 | 9 | 10 | 11 | 12 |
赵敏 | - | - | - | - | 12 | 13 |
张无忌 | - | - | - | - | 10 | 11 |
要使用Excel进行陌拜电话和销售业绩的简单分析,我们可以关注几个关键点:
- 电话陌拜次数与销售业绩的关系:分析电话陌拜次数是否与销售业绩正相关,即电话陌拜次数越多,销售业绩是否越好。
- 通话时长与销售业绩的关系:探索通话时长是否影响销售业绩,即通话时长越长,是否意味着销售业绩越高。
- 月度业绩变化趋势:分析每个销售人员的月度销售业绩变化,查看哪些销售人员业绩提升显著,哪些人业绩下降。
其实还有
通话时间(具体时间段)对销售成功的影响
、多次沟通与销售业绩的关系
等可以讨论,有兴趣的小伙伴可以自行实验哈
1. 数据整理
- 将三个表格整合到一个Excel文件的不同工作表中,以便于管理和引用。
- 确保所有数据的销售人员名称一致,没有拼写错误或不一致的情况。
这里其实有多种办法,比如
- VLOOKUP函数:使用
VLOOKUP
函数根据销售人员的ID或姓名,在三个表格之间查找并整合信息到一个主表中。- INDEX和MATCH函数组合:这是一个更灵活的替代
VLOOKUP
的方法,特别是在你需要左查找或匹配多个条件时。- Power Query:在Excel的“数据”选项卡中,使用“从表/范围获取数据”将数据整合到一个查询中,然后加载到一个新的工作表。这对于处理大量数据和复杂的数据整合非常有用。
我们就选用VLOOKUP来合并了,Excel这部分只是让我们对于数据分析基础有一个入门和初步印象。后面基本上都用python来处理数据,当然也有可能会出一个单独的Excel+Python教程。
毕竟龟叔现在在微软,哈哈
我们会采取一个简单的算法,直接来观察月平均之间的关系。
正常还应该有其他的入参,为了简单点我们就先设定这一个
解释一下函数=SUM(B11:G11)/COUNTIF(B11:G11,">0")
这个函数 =SUM(B11:G11)/COUNTIF(B11:G11,">0")
是一个组合公式,用于计算一系列单元格(从 B11 到 G11)中所有非零数值的平均值。它通过两个主要步骤工作:
SUM(B11:G11)
:这部分计算指定范围内所有单元格的总和。在这个例子中,它会加总 B11 到 G11 这些单元格中的所有值。COUNTIF(B11:G11,">0")
:这部分计算指定范围内满足特定条件的单元格数量。在这个例子中,条件是 “>0” ,意味着它会计算 B11 到 G11 中所有大于零的数值的数量。这样做的目的是找出所有非零的单元格数量,因为平均值的计算应该排除掉值为零的单元格。
最后,通过将总和除以非零数值的数量,这个公式计算出了所有非零单元格的平均值。这种计算方式特别有用,因为它自动忽略了值为零的单元格,这在很多情况下是需要的,比如当零值表示缺失数据或者不适用的情况时。
简而言之,这个公式提供了一种计算平均值的方法,其中只考虑了那些有实际意义的数据(即非零数据),从而避免了零值可能带来的扭曲。
为什么不用AVERAGE平均函数?
使用 =SUM(B11:G11)/COUNTIF(B11:G11,">0")
而不是直接使用 AVERAGE
函数(或在某些版本的 Excel 中为 AVG
)的原因主要是为了特定地排除值为零的单元格。这在处理数据时可能非常重要,尤其是当零值代表的不是有效的数据点,而是缺失数据、未填充字段或特定条件不适用时。
AVERAGE
函数和 =SUM()/COUNTIF()
的比较
- AVERAGE 函数:
AVERAGE
函数计算给定一系列数值的平均值,包括零值在内的所有数值。- 如果你的数据集中零值代表了有效的数据点,使用
AVERAGE
函数就非常合适。 - 语法示例:
AVERAGE(B11:G11)
SUM()/COUNTIF()
方法:- 使用
=SUM(B11:G11)/COUNTIF(B11:G11,">0")
允许你在计算平均值时显式地排除零值。 - 这种方法特别适用于零值不应该被计入平均值计算的情况。
- 它提供了更高的灵活性,允许你根据需要调整排除的条件(例如,你也可以轻松修改公式来排除负值或符合其他特定条件的值)。
- 使用
接下来就是分别设置然后使用VLOOKUP
更新到汇总表中
VLOOKUP
函数是 Excel 中的一种查找和引用函数,用于在表格的第一列中查找特定值,并返回同一行中另一列的值。这个函数的语法如下:
VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])
lookup_value
:需要查找的值。table_array
:包含要查找的数据的表格区域。col_index_num
:在找到匹配项后,你希望从表格中返回哪一列的值。第一列为 1,第二列为 2,依此类推。[range_lookup]
:这是一个可选参数。如果为 TRUE 或省略,VLOOKUP 将使用近似匹配查找。如果为 FALSE,VLOOKUP 将使用精确匹配查找。
在你提供的例子中:
VLOOKUP(A11, 销售额度!A10:I20, 9, FALSE)
A11
是lookup_value
,意味着函数将在销售额度
工作表的 A10:A20 范围内查找与 A11 单元格中相同的值。销售额度!A10:I20
是table_array
,指定了查找范围。这意味着查找会在销售额度
工作表的 A10 到 I20 范围内进行。9
是col_index_num
,指示一旦找到匹配的lookup_value
,函数将从匹配行的第九列返回值。在这个例子中,因为查找范围是从第一列(A)到第九列(I),所以这意味着将从 I 列返回值。FALSE
表示函数将执行精确匹配查找,只有当表中的值完全匹配单元格 A11 中的值时,才会返回结果。
总结来说,这个 VLOOKUP
函数查找 销售额度
工作表的 A10:A20 范围内与 A11 单元格完全匹配的值,然后从找到的匹配行中返回 I 列的值。由于使用了 FALSE
参数,这个查找将只接受精确匹配。
完整数据长这样
销售人员 | 陌拜 | 通话时长 | 销售额 |
---|---|---|---|
杨过 | 56.25 | 380 | 15 |
小龙女 | 37.5 | 237.5 | 7.5 |
郭靖 | 67.5 | 475 | 20 |
黄蓉 | 37.5 | 230 | 7.5 |
令狐冲 | 52.5 | 325 | 10.5 |
任我行 | 77.5 | 555 | 23 |
东方不败 | 32.5 | 200 | 6.5 |
林平之 | 47.5 | 295 | 9.5 |
赵敏 | 52.5 | 375 | 12.5 |
张无忌 | 47.5 | 315 | 10.5 |
2. 可视化图表
我调整了排序,然后把通话时长从分钟换成了小时。
这里可以看出来销冠任我行确实很努力
1. 陌拜次数的条形图
通过陌拜次数的条形图,您可以直观地看出,任我行在陌拜次数上领先于其他销售人员,这表明他在寻找潜在客户方面投入了大量的努力。陌拜次数作为销售活动的一个重要指标,通常反映了销售人员的积极性和市场开拓能力。
2. 通话时长和销售额的散点图
将通话时长和销售额绘制在散点图上,可以帮助我们识别两者之间是否存在某种关系。在许多情况下,更长的通话时长可能意味着销售人员在与潜在客户建立更深层次的关系,这可能会转化为更高的销售额。然而,这种关系可能不是线性的,也可能受到其他因素的影响,如沟通质量、客户需求的匹配度等。
3. 销售额的饼图
销售额的饼图提供了一个清晰的视觉表示,显示了每位销售人员对总销售额的贡献比例。在这种情况下,任我行占据了饼图中最大的一块,这进一步证实了他在销售表现上的领先地位。饼图是展示个体贡献相对于整体的有力工具,非常适合于展示销售团队中各成员的表现。
3. 数据解释
在整理和分析销售数据后,我们得到了以下关键统计指标,这些指标帮助我们更好地理解销售团队的表现:
陌拜次数
- 总和:507.5次,这是所有销售人员在观察期内的陌拜总次数。
- 平均值:50.75次,这表示平均每位销售人员在观察期内的陌拜次数。
- 最大值:77.5次,由任我行实现,表明他在陌拜次数上是所有销售人员中最积极的。
- 最小值:32.5次,由东方不败实现,表明她在陌拜次数上是所有销售人员中最低的。
通话时长(小时)
- 总和:54.625小时,这是所有销售人员在观察期内的通话总时长。
- 平均值:5.4625小时,这表示平均每位销售人员在观察期内的通话时长。
- 最大值:9.25小时,由任我行实现,表明他在通话时长上是所有销售人员中最长的。
- 最小值:3.333小时,由东方不败实现,表明她在通话时长上是所有销售人员中最短的。
销售额
- 总和:122.5单位,这是所有销售人员在观察期内的销售总额。
- 平均值:12.25单位,这表示平均每位销售人员在观察期内的销售额。
- 最大值:23单位,由任我行实现,表明他在销售额上是所有销售人员中最高的。
- 最小值:6.5单位,由东方不败实现,表明她在销售额上是所有销售人员中最低的。
结论
通过对销售数据的整理和分析,我们可以看到任我行在陌拜次数、通话时长和销售额三个关键指标上都表现出色,显示了他的高效率和出色的销售能力。相比之下,东方不败在这三个指标上的表现均为最低,可能需要进一步的培训或支持以提高其销售绩效。
这些统计指标不仅帮助管理层了解每个销售人员的具体表现,还提供了整个销售团队表现的概览。通过这些数据,管理层可以识别出表现优秀的销售人员以及需要额外支持的销售人员,从而制定更有效的销售策略和培训计划,以提高整体销售业绩。
有一个有意思的点,不知道大家注意到没有。
杨过和小龙女这对办公室恋人在5月份(或者更早一点)离职了,而杨过的数据一直不错。
你们猜是因为不允许办公室恋情被优化了?还是小龙女被末位淘汰杨过也跟着一起走了呢
总结
虽然开头写的都是数据分析,但干货都是Excel中的。不是我断章狗啊,在删了几个概念之后还有将近6千字实在是写不动了。下一定一定能写到pandas和numpy的,肯定的
未完待续
转载自:https://juejin.cn/post/7368118907901296677