Mar, 2017
寻找实体解析的绿洲:最优渐近顺序重要采样
In Search of an Entity Resolution OASIS: Optimal Asymptotic Sequential Importance Sampling
Neil G. Marchant, Benjamin I. P. Rubinstein
TL;DR本文提出了一种基于 OASIS 的算法,通过选择合适的偏置分布并基于贝叶斯潜变量模型来更新样本来实现解决实体解析中匹配与不匹配记录之间极端类别不平衡引发的大量标注需求,从而在不影响统计学一致性的前提下,降低了样本量并准确估算了精确度和召回率等指标。