异常检测有哪些问题?

异常检测存在各种问题,如下所示 -

Number of Attributes used to define an anomaly - 一个对象是否异常的问题取决于单个属性,即该属性的对象值是否异常。因为一个对象可以有多个属性,所以它可以有多个属性的异常值,但多个属性的普通值。

此外,即使一个对象的属性值都不是独立异常的,它也可能是异常的。例如,身高两英尺(儿童)或体重 300 磅的人通常是正常的,但身高两英尺的人体重 300 磅是不正常的。

异常的描述应该定义如何使用多个属性的值来决定一个对象是否是异常。当数据的维度很大时,这是一个基本问题。

Global vs Local Perspective - 一个对象对于所有对象可能看起来不寻常,但不涉及其本地邻域中的对象。例如,一个身高为 6 英尺 5 英寸的人对于一般人群来说是非常高的,但对于职业篮球运动员来说却不是。

点是异常的程度- 对象的评估是异常的,通过一些方法以二进制方式记录:对象是异常还是不是。一般来说,这并不能反映一些物体比其他物体更强烈异常的基本现实。因此,对一个物体的异常程度进行多重评估是很有趣的。这种评估称为异常或异常值分数。

一次识别一个异常与一次识别多个异常- 在某些方法中,一次消除一个异常;即,识别并删除最异常的示例,然后重复该过程。对于多种技术,一组异常被一起识别。

尝试一次识别一个异常的技术通常会遇到一个称为掩蔽的问题,即多个异常的存在掩盖了所有异常的存在。换句话说,一次识别多个异常值的技术可能会遇到淹没,其中正常对象被定义为异常值。在基于模型的方法中,这些影响可能会出现,因为异常会改变数据模型。

效率- 几种异常检测方案的计算成本存在重要差异。基于分类的方案可能需要必要的资源来制作分类模型,但通常使用成本低廉。同样,统计方法会生成统计模型,并且可以在恒定时间内对元素进行分类。