Reservoir sampling
技术23 水塘抽样(Reservoir sampling) 假设如下场景:在开发一个MapReduce作业的时候,需要反复不断地去测试一个超大数据集。
基于1149个网页-相关网页
水塘抽样是一系列的随机算法,其目的在于从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有n个项目都存放到主内存的情况。最常见例子为Jeffrey Vitter在其论中所提及的算法R。
详细内容
应用推荐
模块上移
模块下移
不移动