实体中心的查询优化
我们引入一个称为 “实体中心问题生成”(ECQG)的新任务,旨在从实体的角度生成问题。为了解决 ECQG,我们提出了一个连贯的基于 PLM 的框架 GenCONE,其中包含两个新颖的模块:内容聚焦和问题验证。我们还构建了一个大规模的开放领域数据集,以支持这个任务。我们的大量实验证明,GenCONE 在生成高质量问题方面显著且一致地优于各种基线方法,而两个模块在此过程中是有效且互补的。
Oct, 2023
在线平台中重要的目标是促进内容发现,然而,机器学习搜索引擎存在较高的检索偏差,我们提出了一种生成查询的方法,旨在改善训练数据和查询分布对检索能力的负面影响。在音乐、播客和图书等领域的数据集上,使用 CtrlQGen 明显减少了密集检索模型的可检索性偏差。
Mar, 2023
论文提出了在缺乏背景知识和长尾实体的情况下,通过自动化生成实体出现位置的候选项并结合用户反馈来提高实体链接的准确性的方法。选择了基于梯度互缠的多样化和文本相关性方法作为生成候选项的方法,并在 FACC 数据集上进行了广泛的实验,展示了该方法的有效性。
Oct, 2018
本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题,并探讨了两种解决方案:第一种解决方法是数据扩充无法解决广义化问题,第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。
Sep, 2021
CLOCQ 是一种基于 KB 感知信号的高效方法,通过 score-ordered KB 列表的前 k 个查询处理器,将语义匹配、与问题相关性、候选项间的协同性以及 KB 图的连接性信号相结合,剪枝掉搜索空间中的非相关部分,实验表明 CLOCQ 在复杂问题的 QA 基准测试中表现优于现有的基线。
Aug, 2021
研究实体链接及其在知识库问答中的应用,提出了一种使用不同粒度的上下文信息进行实体提及检测和消岐的神经网络架构,并使用 Wikidata 知识库建立了实体链接的问答数据基准。该方法在此数据上优于先前的最先进系统,结果平均得分提高了 8%,并且在不同实体类别上表现良好。
Apr, 2018
通过利用现有的分类法作为实体关系的丰富来源,运用指导调优来微调大规模语言模型以生成父节点和同级实体,本文提出了统一的分类法指导的指令调优框架,有效地解决了实体集扩展、分类法扩展和种子引导分类法构建这三个任务,并且在多个基准数据集上的广泛实验证明了 TaxoInstruct 的有效性,其在这三个任务上优于特定任务的基线方法。
Feb, 2024
使用维基百科分类名,我们半自动构建了一个包含 3357 个自然语言查询的 QUEST 数据集,并用于挑战现代检索系统对于含有隐式集合操作的查询的应对能力,发现包含否定和连接的查询尤其具有挑战性。
May, 2023