大家好,欢迎来到IT知识分享网。
散点图(Scatter Plots)展示了两个变量之间的关系。当变量是非分类和数值时,它们尤其有用。
散点图(Scatter Plots)的使用范围
- 变量依赖性:两个变量之间的相关性通常描绘了其中一个变量如何受另一个变量变化的影响。然而,在现实中,其中一个变量是独立的,通常在X轴上表示,而Y轴上的变量是一个受独立变量影响的因变量。
- 变量之间的因果关系:散点图上的变量之间的因果关系比线图更好,因为它建立了这些变量之间不同和明确的联系。在线图中,即使在绘制的点之间,由于它们被一条线连接起来,内在逻辑也是暗示的。
- 识别全图关系:由于绘图中的每个点表示一个数据点,因此很容易建立所有数据点之间的关系,而不必建立所有这些数据点之间的因果关系。由于这些图表使得在数据集中识别关系变得容易,因此当数据集具有正、负、弱、强、线性或非线性的因变量和自变量时,散点图被使用。
散点图(Scatter Plots)类型
图上点的分组对不同的数据集遵循不同的模式。因此,每个绘图都讲述了一个不同的故事。因此,用户通常根据点的聚集方式将数据点分成组或趋势。这些分组还有一个额外的好处,即可以确定哪些点没有聚集在一起,但应该这样做。
确定的间隙有助于理解异常值或企业资源需要重新定向的位置。在开发客户人物、将人员分成段落或将目标基础分成地理或人口统计段时,这是有用的。
散点图的三个属性是:强或弱、线性或非线性、正或负。因此,散点图具有强、线性和正或强、非线性和负等组合。
- 强或弱:强聚集表示散点图中所有点都紧密聚集在一起。这代表了所有数据点之间的强关系。这说明组织正在将他们的努力集中在正确的方向,因为这些元素代表着紧密的关系。另一方面,弱聚集表示散点图中的数据点到处都是。虽然没有正确或错误的图表,但弱聚集表示组织在处理图表洞察时需要涵盖更广泛的范围。还有适度的聚集。然而,由于“适度”的性质,它通常是被避免的,并且这些聚集被归类为强或弱。
- 线性或非线性:线性关系表示聚类在直线上进行,无论向上还是向下。散点图聚类的任何其他形状都表示非线性关系。再次强调,没有正确或错误的图表。一些组织可能寻找变量之间的非线性关系,而其他人可能寻找线性关系。
- 正或负:正向聚集表示绘图中的向上移动,从原点开始。负向聚集表示绘图向X轴移动。正向移动通常表示变量之间的正向关系,其中随着另一个变量的增加,两个变量同时增加,反之亦然。负向移动表示负向关系,其中一个变量的增加导致另一个变量的减少。与强或弱变量有一个中点不同,正向或负向绘图没有中点。
绘制散点图(Scatter Plots)时常见的错误
- 过度绘制:当有多个数据点要绘制时,可能会发生过度绘制。对于展示强聚集的散点图,过多的数据点意味着绘图变得过于密集,无法提供任何重要的洞察。由于使点足够小以容纳多个数据集在统计上是不可能的,因此任何分析都会变得多余。解决这个问题的一个常见替代方法是在图上对元素进行采样。从小样本中得出的模式通常应该代表整个绘图。虽然对于“世界各地的森林覆盖面积”这样的数据集来说这不是真的,但对于跟踪随时间增加的进展的数据集来说,这是行得通的。热图是对抗这个问题的备选绘图选项。
- 因果关系作为相关性:虽然这不是绘图本身的问题,但这是分析散点图时的一个固有问题。仅仅因为某事遵循一种模式,并不意味着它们是相关的。模式的原因并不等于该模式中变量之间的相关性。例如,随着时间的推移,乘坐飞机的人数增加了,工人的生产率也增加了。当我们使用散点图绘制这一点时,假设它们之间有联系,两者在图表上都显示出线性和正向的移动。然而,它们背后的原因可能是不同的。将这解释为相关性是可能的,这可能在做决策时显示出不正确的结果。
- 变量之间的依赖性和独立性关系:在绘制散点图时很容易混淆因变量和自变量。有时候,变量甚至可能没有联系。例如,如果您要跟踪一个城市的绿地面积和犯罪数量,您肯定会得出一种模式。然而,这是没有意义的,因为这两个变量没有联系,除非绿地被用作犯罪的藏身处。如果企业没有正确地审查变量并假设一个变量是依赖变量,另一个是独立变量,则得到的分析可能毫无意义,也不会对业务产生任何影响。
散点图是有效数据可视化的有价值工具。然而,由于图表的相似性,企业倾向于将它们用于初级目的而互换使用。如果使用正确,散点图可以提供其他类型的图表无法提供的有价值的洞察。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/167722.html