本文研究使用围绕众包的启发式算法解决实体识别问题,分析了常见的算法并提供了实验和信息理论下界的支持。
Feb, 2017
本文章研究了如何通过鲁棒数据解释和任务分配等策略来最大化实体解析的结果质量和信息利用,从而在保证准确性的同时,最小化任务请求者的成本。
Dec, 2015
本文首次提供现代实体解析工作流的全面视图,并介绍了实体索引和匹配方法的新颖方面,旨在同时应对多个大数据特征的挑战。文章从数据库、语义 Web 和机器学习三个方面分别阐述了基本概念、处理步骤和任务策略,并最终提供了现有方法的综合讨论,最后详细介绍了未来研究方向。
May, 2019
本研究提出了四种评估 13 个常用数据集难易度和适用性的方法,并发现大多数数据集对于评估基于机器学习的匹配算法来说过于简单。因此,提出了一种新的方法来生成更具挑战性的基准数据集。
Jul, 2023
本文提出了一种基于领域适应的、适用于众包的注释者感知特征学习模型,以减小众包注释的干扰,实现有效的监督式学习,将其应用于命名实体识别任务中,通过实验验证其在无或少量专家注释的情况下也可以实现极佳的效果,并取得了新的最高性能。
May, 2021
本文考虑众包任务分配中的可靠性问题,提出了一种基于置信传播和低秩矩阵逼近的算法来决定如何分配任务,并从工人的答案中推断出正确答案。比较了不同算法的表现,发现基于者非自适应的算法是最优的。此外,还强调了建立可靠的工人信誉系统对于完全运用自适应设计的潜力至关重要。
Oct, 2011
本研究提出一种将机器学习与众包数据库结合的主动学习算法,以实现众包应用程序的可扩展性,并通过实验证明:相比于以往的主动学习方案,我们的方法平均只需要人类标记 1-2 个数量级的数据集就能实现与随机采样相同的精度。
Sep, 2012
文章综述了记录链接、实体解析、概率论、聚类和规范化等领域的历史发展、目前应用和未来研究方向。
Aug, 2020
本文介绍了一种名为 DeepER 的新型实体解析(ER)系统,该系统利用了先进的深度学习技术,通过使用递归神经网络(RNN)和分布式表示(即向量)等方法。提高了解析准确性、效率和易用性,相比传统机器学习方法无需人工标记数据和手工制定特征和相似性函数阈值。在多个数据集上进行测试的实验结果表明,DeepER 优于现有的解决方案。
Oct, 2017
使用 CrowdTruth 方法通过众包获得医疗关系提取的注释数据集,并通过建模歧义性提高数据质量并减少成本,展示了在人类和机器性能方面均考虑歧义性时的加权测量精度、召回率和 F 度量的优势。
Jan, 2017