数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)。 数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。 假定在公司的数据仓库选择了数据,用于分析。这样数据集将非常大。在海量数据上进行复杂的数据分析扣挖掘将需要很长时间,使得这种分析不现实或不可行。 数据归约技术可以用来得到数据集的归约表示,它虽然小,但仍大致保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。