大家好,欢迎来到IT知识分享网。
转载自:离群点(孤立点、异常值)检测方法
本文介绍了离群点(孤立点)检测的常见方法,以及应用各种算法时需要注意的问题。
离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。
离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵、天气预报等领域,如可以利用离群点检测分析运动员的统计数据,以发现异常的运动员。
孤立 点 检 测 在 国 外 获 得 了 广 泛 的 研 究 和 应用, E. M. Knorr 和 R. T. N将孤立点检测用于分析 NHL ( Nationai Hockey League )的 运 动 员 统 计 数据,用来发现表现例外的运动员;
The techniques in this category make the implicit assumption that normal instances are far more frequent than anomalies in the test data. If this assumption is not true then such techniques suffer from high false alarm rate.
(文献9)
【2】基于邻近度的方法:通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。
【3】基于密度的方法:仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。
【4】基于聚类的方法:聚类分析用于发现局部强相关的对象组,而异常检测用来发现不与其他对象强相关的对象。因此,聚类分析非常自然的可以用于离群点检测。
根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。
(文献5)
算法基本思想是:查找每个对象o在半径d范围内的邻居数,假设对于一个孤立点来说,在d领域内最多只能有M的邻居,那么对于一个对象x而言,如果发现了M+1邻居,那么x就不是一个孤立点。
考虑算法的计算复杂度,需要进行优化,主要的算法有:基于索引( iDcex – baSec )的算法 ,循环一嵌套( DeStec – ioop , NL )算法 ;基于单元( ceII – based )的算法,详细可参考文献1、4。
离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。所以我们可以看到基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/137683.html