在降维中,数据编码或转换用于访问原始数据的减少或“压缩”描述。如果可以从压缩数据中重新生成原始数据而不会丢失任何数据,则数据缩减称为无损。如果重构的数据仅近似于原始数据,则数据缩减称为有损。
DWT 几乎与离散傅立叶变换 (DFT) 相关联,这是一种包含正弦和余弦的信号处理技术。一般来说,DWT 实现了更好的有损压缩。也就是说,如果为给定数据向量的 DWT 和 DFT 保持相似数量的系数,则 DWT 版本将支持更准确的原始数据近似。因此,对于等效近似,DWT 需要的面积比 DFT 少。
在数量减少中,通过选择替代的、较小形式的数据表示来减少数据量。这些技术可以是参数的或非参数的。对于参数化方法,模型可以估计数据,这样只需要保存数据参数,而不是实际数据,例如Log-linear模型。非参数方法用于存储数据的简化表示,包括直方图、聚类和采样。
让我们看看降维和归约之间的比较。
降维 | 数量减少 |
---|---|
In dimensionality reduction, data encoding or transformation are applied to obtain a reduced or compressed representation of original data. | 在数量减少中,通过选择交替的、更小的数据表示形式来减少数据量。 |
In dimensionality reduction, the discrete wavelet transform (DWT) is a linear signal processing technique that, when used to a data vector X, changes it to a numerically different vector, X’, of wavelet coefficients. The two vectors are of the same length. When applying this technique to data reduction, it can consider each tuple as an n-dimensional data vector, that is, X=(x1,x2,…xn)depicting n measurements made on the tuple from n database attributes. | 在数量减少中,回归和对数线性模型可用于近似给定数据。在线性回归中,数据被建模为拟合一条直线。 例如,随机变量 y(称为响应变量)可以建模为另一个随机变量 x(称为预测变量)的线性函数,方程为 y = wx+b,其中 y 的方差假设为常数。 |
It can be used for removing irrelevant and redundant attributes. | 它只是将原始数据转换为更小的形式的一种表示技术。 |
In this technique, some data can be lost which is inappropriate. | 在这种方法中,没有数据丢失,而是以较小的形式表示整个数据。 |