详细数据分析步骤(二)——数据预处理(2)

详细数据分析步骤(二)——数据预处理(2)上一篇讲述了数据预处理之数据的形态分析 这一篇将介绍数据预处理的剩余操作 相关性 正相关 or 负相关

大家好,欢迎来到IT知识分享网。

上一篇讲述了数据预处理之数据的形态分析,这一篇将介绍数据预处理的剩余操作。

一.数据的选择性分析

1.数据的针对性

从数据中挖掘出相应指标(与问题有关的)判断对问题的影响(关联)程度

影响力:某个指标对问题解决的权重

相关性:正相关 or 负相关

推荐阅读:数据指标间相关性分析_team39的博客-CSDN博客_指标相关性分析

2.数据的特征选择

特征选择原则:

①适当性:依据数据、针对问题、宁少不多

②独立性:各特征间是独立的,无关联

③非独立性:既不独立,又不相同

④相关性:线性相关、非线性相关or多重共线性

推荐阅读:数据特征选择_搬砖老头的博客-CSDN博客_数据特征

二.数据指标的一致化处理

一般问题的数据指标x1,x2,…,xm(m>1)可能有“极大型”,“极小型”,“中间型”和“区间型”指标

  • 极大型:期望取值越大越好
  • 极小型:期望取值越小越好
  • 中间型:期望取值为适当的中间值最好
  • 区间型:期望取值落在某一个确定的区间内为最好

下面仅描述如何将其他指标化为极大型

详细数据分析步骤(二)——数据预处理(2)

三.数据指标的规范化处理

常用方法:标准差法、极值差法和功效系数法等

1.标准差法

又叫z-score标准化(规范化)。当我们遇到某个指标的最大值和最小值未知的情况时,或者有超出取值范围的离群数值的时候,就不再适宜计算极差了,此时我们可以采用另一种数据标准化最常用的方法,即Z-score标准化,也叫标准差标准化法。z-score基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。一般把均值归一化为0,方差归一化1。计算公式为:

详细数据分析步骤(二)——数据预处理(2)

适用于数值大小相对不均衡时

2.min-max 标准化(归一化)

也叫极差标准化法,是消除变量量纲和变异范围影响最简单的方法。把最大值归为1,最小值归为0或-1,其他值在其中分布。计算公式为

详细数据分析步骤(二)——数据预处理(2)

适用于各数据大小相对均衡时

3.功效系数法

详细数据分析步骤(二)——数据预处理(2)

其中c,d均为确定的常数

推荐阅读:数据预处理——数据标准化/归一化 – 知乎

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/178694.html

(0)
上一篇 2025-05-15 08:20
下一篇 2025-05-15 08:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信