大家好,欢迎来到IT知识分享网。
上一篇讲述了数据预处理之数据的形态分析,这一篇将介绍数据预处理的剩余操作。
一.数据的选择性分析
1.数据的针对性
从数据中挖掘出相应指标(与问题有关的)判断对问题的影响(关联)程度
影响力:某个指标对问题解决的权重
相关性:正相关 or 负相关
推荐阅读:数据指标间相关性分析_team39的博客-CSDN博客_指标相关性分析
2.数据的特征选择
特征选择原则:
①适当性:依据数据、针对问题、宁少不多
②独立性:各特征间是独立的,无关联
③非独立性:既不独立,又不相同
④相关性:线性相关、非线性相关or多重共线性
推荐阅读:数据特征选择_搬砖老头的博客-CSDN博客_数据特征
二.数据指标的一致化处理
一般问题的数据指标x1,x2,…,xm(m>1)可能有“极大型”,“极小型”,“中间型”和“区间型”指标
- 极大型:期望取值越大越好
- 极小型:期望取值越小越好
- 中间型:期望取值为适当的中间值最好
- 区间型:期望取值落在某一个确定的区间内为最好
下面仅描述如何将其他指标化为极大型

三.数据指标的规范化处理
常用方法:标准差法、极值差法和功效系数法等
1.标准差法
又叫z-score标准化(规范化)。当我们遇到某个指标的最大值和最小值未知的情况时,或者有超出取值范围的离群数值的时候,就不再适宜计算极差了,此时我们可以采用另一种数据标准化最常用的方法,即Z-score标准化,也叫标准差标准化法。z-score基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。一般把均值归一化为0,方差归一化1。计算公式为:
适用于数值大小相对不均衡时
2.min-max 标准化(归一化)
也叫极差标准化法,是消除变量量纲和变异范围影响最简单的方法。把最大值归为1,最小值归为0或-1,其他值在其中分布。计算公式为
适用于各数据大小相对均衡时
3.功效系数法
令
其中c,d均为确定的常数
推荐阅读:数据预处理——数据标准化/归一化 – 知乎
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/178694.html