- 具有动态异构知识图表示的个性化实体解析
提出了一个利用个性化特征提高产品排名准确性的新框架,该框架通过建立跨来源异构知识图来联合学习客户和产品嵌入,并将产品、客户和历史表示结合到神经重排模型中以预测特定客户最有可能购买的候选产品。实验表明,相比最先进的产品搜索模型,我们的模型将前 - ErGAN: 实体消解的生成式对抗网络
提出一种新的深度学习方法 ErGAN,利用生成式对抗网络(GAN)解决学习实体匹配中的标记成本高的问题,包括两个关键组件:标签生成器和判别器,以及旨在提高模型泛化能力的多样性和传播模块。经过实验证明,ErGAN 在标记和学习效率上优于当前最 - (几乎) 所有实体解析
文章综述了记录链接、实体解析、概率论、聚类和规范化等领域的历史发展、目前应用和未来研究方向。
- 用于微聚类任务的随机划分模型
本文提出了一种满足微聚类特性的贝叶斯随机分区模型,并在实验中展示了该模型在实体解析的应用。
- AAAI通过灵活的对偶最优不等式加速列生成,应用于实体解决方案
本文介绍一种新的实体解析的优化方法,将实体解析建模为相关性聚类,并通过整数线性规划(ILP)求解加权集装问题以优化集合的最优性,同时介绍了一种新的灵活的对偶最优不等式(DOI)方法来加速成列生成。
- ZeroER: 使用零标记样本进行实体消歧
该研究探讨了一种无监督学习的方法,使用高斯混合模型等工具实现了基于相似度向量的实体解析算法,该算法不需要标注数据,但能够实现与有标注数据的算法相近的性能表现,且在五个基准数据集上的表现优于现有的无监督方法。
- ACL基于最优输运的学习字符表示对齐方法及其在字符串相似度计算中的应用
该研究提出了一种基于深度学习的字符串相似度模型 STANCE,用于实现记录链接、实体解析和别名检测等任务,并在自行构建的五个别名检测数据集中展示了其性能优越性。
- ACL低资源的实体对齐问题:迁移和主动学习方法
本文提出了一种针对数据集资源匮乏的实体消歧问题的深度学习方法,通过转移学习和主动学习的结合,构建了一个可迁移的模型用于适应缺乏标记数据的场景,并通过有针对性地选择信息样本进行微调,验证表明该方法在实际应用中比当今学习方法使用的少数标记数据量 - 大数据下的端到端实体解析:一项调查
本文首次提供现代实体解析工作流的全面视图,并介绍了实体索引和匹配方法的新颖方面,旨在同时应对多个大数据特征的挑战。文章从数据库、语义 Web 和机器学习三个方面分别阐述了基本概念、处理步骤和任务策略,并最终提供了现有方法的综合讨论,最后详细 - 通过转移学习进行实体匹配的重用和适应
本文研究了在具有限或无训练数据的情况下,通过重用和调整同一领域或相关领域数据集 D_S 的训练数据,是否可以在数据集 D_T 中训练良好的机器学习分类器,并提出了用于处理此类情况的五种算法。在五个不同领域的 12 个数据集上进行了全面的实验 - 指代消解综述
本文旨在通过回顾研究中所采用的数据集、评估指标和研究方法来澄清名词消解中两个任务的范围,以提供对此 NLP 问题的清晰理解和需要关注的问题。
- 实体消解与联邦学习的联合实现
本文探讨了联邦学习中实体匹配的问题,发现错误的实体匹配会对学习器的分类器、损失函数、一般性能产生影响,并提出了一种更好的实体匹配方法来优化学习过程,实验结果表明,在保证实体匹配准确率的情况下,使用类别信息可以显著提高学习效果。
- DeepER -- 深度实体分辨
本文介绍了一种名为 DeepER 的新型实体解析(ER)系统,该系统利用了先进的深度学习技术,通过使用递归神经网络(RNN)和分布式表示(即向量)等方法。提高了解析准确性、效率和易用性,相比传统机器学习方法无需人工标记数据和手工制定特征和相 - 寻找实体解析的绿洲:最优渐近顺序重要采样
本文提出了一种基于 OASIS 的算法,通过选择合适的偏置分布并基于贝叶斯潜变量模型来更新样本来实现解决实体解析中匹配与不匹配记录之间极端类别不平衡引发的大量标注需求,从而在不影响统计学一致性的前提下,降低了样本量并准确估算了精确度和召回率 - AAAI众包实体消解中的第一启发式理论分析
本文研究使用围绕众包的启发式算法解决实体识别问题,分析了常见的算法并提供了实验和信息理论下界的支持。
- NIPS灵活的微聚类模型及其在实体消解中的应用
本文提出了一种可以产生微小聚类的模型并把它应用于实体解析领域,并与其他聚类模型进行了比较。
- KDD数据图上可扩展的边缘发现任务的自适应候选生成
本文提出了用于 Disjunctive Normal Form (DNF) 阻塞方案的图论形式化方法,并探究了它们在优化框架中的可学性。此外,作者还简要描述了一个实证案例,该案例概括了本文部分原则。
- NIPS微聚类:当聚类大小与数据集大小呈次线性增长时
本研究提出一种具有微聚类特性的新模型,可应用于需要聚类大小与数据集大小呈次线性增长的任务,通过比对实验数据和模拟数据的适配情况,验证该模型的有效性。
- 使用众包技术的容错实体关系解析
本文章研究了如何通过鲁棒数据解释和任务分配等策略来最大化实体解析的结果质量和信息利用,从而在保证准确性的同时,最小化任务请求者的成本。
- 一种实体解析方法以分离在线人口贩卖实例
采用代理标签的实体分辨管道从在线论坛中提取人类贩卖活动数据,并应用于 5M 条记录的 Backpage.com 数据,并报告了其性能的挑战和领域特定特征