- IJCAI使用有限重叠的垂直分割数据的实体增强策略提高分类效率
在分布式垂直数据学习中,我们提出了一种通过实体增强技术来减少集合交集和实体对齐的方法,从而在分类任务中实现高效的垂直联邦学习。
- 面向实体解析的通用密集阻塞
本文提出了一种基于自监督对比学习的预训练域无关稠密阻塞方法 UBlocker,它能够适应多种下游阻塞场景,并在实验中表现出优异的性能,在不需要领域特定微调的情况下显著优于以前的自监督稠密阻塞方法及稀疏阻塞方法。
- 评估实体解析系统的方法:一个以实体为中心的框架,应用于发明家姓名消歧
实体消解(记录链接,微聚类)系统难以评估,提出了一种替代方法,用于创建代表性、可重复使用的基准数据集,以及用于模型训练和各种评估任务的实体中心数据标记方法。
- 匹配英语语言地址的方法
通过研究地址匹配任务中的准确率、召回率和准确性指标,我们对地址匹配的最佳方法进行了研究,探究了从基于距离的方法到深度学习模型的各种方法。
- 利用大型语言模型提升实体解析技术
本文研究了大型语言模型在实体解析过程中的潜力,包括利用语言模型的优势以及大规模匹配所涉及的计算复杂性,并提出了一种选择最有效匹配问题的策略,同时限制消耗预算,以减少实体解析的不确定性。通过熵作为度量标准评估我们的方法的效果,实验结果证明了我 - 面向实体解析的经济高效上下文学习方法探索
综合研究了如何开发一种经济高效的批量提示方法来进行实体解析,通过引入批处理和选择演示来支持批量提示,并探索了不同的设计选择。通过广泛的实验证明,与基于 PLM 的方法和手动设计提示的 LLM-based 方法相比,批量提示对于实体解析非常具 - 提示工程对 ChatGPT 在无监督实体解析中的影响
通过对 prompting 方法在 Entity Resolution 中的效果进行系统实验研究,本论文发现 prompting 方法对 Entity Resolution 的质量有重要影响,部分评估指标更加敏感,同时也受到数据集的影响。
- 个人知识图谱中的命名实体解析
实体消解是确定两个实体是否指向相同基础实体的问题。本章将讨论在个人知识图谱(PKG)环境下的命名实体消解问题,包括问题的形式化定义、进行高质量和高效实体消解所需的组件、面临的挑战、现有技术在 PKG 中的应用、一些应用案例以及未来研究的方向 - 基于(深度)学习匹配算法的基准数据集的重要再评估
本研究提出了四种评估 13 个常用数据集难易度和适用性的方法,并发现大多数数据集对于评估基于机器学习的匹配算法来说过于简单。因此,提出了一种新的方法来生成更具挑战性的基准数据集。
- 基于自然语言文本的过程模型生成之外:超越基于规则的命名实体识别与关系抽取
通过提出一种新的基线技术和构建基于机器学习的过程提取技术,将实体解析组件与实体和关系提取组件进行深度融合,以适应不同数据集和领域,从而避免了适应其他数据集、不同实体和关系类型或新领域所需的特征工程和规则定义所产生的巨大开销。
- 实体解析的预训练嵌入:实验分析
本研究评估了 12 种语言模型在 17 个基准数据集上的效能,研究结果提供了各种语言模型的优缺点,帮助研究人员和从业人员选择最合适的模型。
- 知识库中实体解析和查询回答的结合框架
本文提出了一种新的框架,用于在具有元组生成依赖关系(tgds)和相等生成依赖关系(egds)作为规则的知识库(KBs)中结合实体解析和查询回答。该方法允许我们解决实体并绕过数据可能存在的不一致性,我们设计了一个适合这种新框架的 chase - 实体消歧的另一个通用设置:基本理论
本文将根据实体解析问题(ER),研究匹配和合并函数的性质并基于此将匹配和合并黑盒建模为部分群。通过定义天然偏序,引入四个重要性质并通过选取归纳关系 ,我们证明了部分群是 ER 的另一种一般设置。
- KAER: 为实体解析而设计的知识增强预训练语言模型
本研究提出了一种名为 KAER 的新框架,该框架使用外部知识增强预训练语言模型的实体解析性能,并在多个数据集上实现了更好的表现,尤其是在 “脏数据” 上表现更加健壮。
- PIZZA:面向复杂端到端任务的新基准解析
本文研究任务导向的解析,并通过引入新的解析 pizza 和饮料订单的数据集,并在该数据集上进行深度学习技术的广泛评估,包括不同风格的 seq2seq 系统和 RNNGs,演示了直接生成 EXR 符号表示的解析器的训练不仅可以一举解决实体分辨 - FlexER: 多意图柔性实体解析
本研究提出了多重意图实体解析问题 (MIER) 的解决方案 FlexER,使用目前通用实体解析任务的现代解决方案来解决多个实体解析问题,并将其作为多标签分类问题解决,使用多重图神经网络来学习意图表示,并在大规模实证评估中推出了一个新的基准, - AI 实体解析中低成本相关性生成和评估度量
本文提出了一种低成本的实体解析框架,通过使用用户的隐式和显式反馈信号生成特征,生成相关数据集来测量实体解析性能,并引入了一组度量标准来准确地测量 ER 系统在各个维度上的表现。这些度量标准提供了很大的可解释性,可以深入挖掘和识别 ER 问题 - IJCAI实体匹配的现实与理想之间的沟通:一个重访和基准重建
本研究建立了新的实体匹配(EM)语料库和重构 EM 基准来挑战以前 EM 基准构建过程中的关键性假设,实验证明以往基准构建过程中的假设与开放环境不符,掩盖了 EM 任务的主要挑战。
- EMNLP使用可微分知识图谱的端到端实体解析和问答
本文介绍了对知识图谱问题回答的端到端训练模型进行扩展,包括实体解析组件的训练,模型只需要问题文本和答案实体进行训练,在两个公共数据集上评估模型,结果接近使用手动注释实体的基线模型。
- MM增量实体解析中用图神经网络识别不一致簇
该研究提出了一种基于图神经网络的监督学习方法,用于识别低质量的实体解析结果,并在合成数据集、公共基准数据集和内部应用中进行了测试。结果表明,该方法能够有效地提高图分类任务的性能,并为图划分提供实用的表示。