请在 下方输入 要搜索的题目:

数据异常值分析

数据异常值分析

发布时间:2024-10-07 09:51:25
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:离群点(Outlier),也称为异常对象。通常,在数据的散布图中,离群点远离其他数据点。离群点检测的目的是发现有异于大部分对象的其他对象。离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。从整体来看,某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。从属性的个数看包括一维离群点和多维离群点,从数据类型看包括数值型离群点和分类型离群点。异常值分析包括如下方法:(1)基于统计。大部分的基于统计的离群点检测方法是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点。(2)基于邻近度。通常可以在数据对象之间定义邻近性度量,把远离大部分点的对象视为离群点。(3)基于密度。考虑数据集可能存在不同密度区域这一事实,从基于密度的观点分析,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。(4)基于聚类。一种是利用聚类检测离群点的方法是丢弃远离其他簇的小簇;另一种更系统的方法,首先聚类所有对象,然后评估对象属于簇的程度(离群点得分)。
专业技术学习
专业技术学习
搜搜题库系统