实体中心的查询优化

Apr, 2022

Entity-Centric Query Refinement

David Wadden, Nikita Gupta, Kenton Lee, Kristina Toutanova

TL;DR该论文提出了实体为中心的查询细化任务，并提出了一种使用现有知识库分类法来产生查询细化数据集的方法，该方法可通过生成模型对新查询进行精细化，并证明了该方法的有效性。

Abstract

We introduce the task of entity-centric query refinement. Given an input query whose answer is a (potentially large) collection of entities, the task output is a small set of query refinements meant to assist the

entity-centric query refinement knowledge base taxonomy training dataset text generation model

发现论文，激发创造

向实体为中心的开放域问题生成提问

我们引入一个称为 “实体中心问题生成”（ECQG）的新任务，旨在从实体的角度生成问题。为了解决 ECQG，我们提出了一个连贯的基于 PLM 的框架 GenCONE，其中包含两个新颖的模块：内容聚焦和问题验证。我们还构建了一个大规模的开放领域数据集，以支持这个任务。我们的大量实验证明，GenCONE 在生成高质量问题方面显著且一致地优于各种基线方法，而两个模块在此过程中是有效且互补的。

Oct, 2023

通过可控的查询生成提高搜索中的内容可检索性

在线平台中重要的目标是促进内容发现，然而，机器学习搜索引擎存在较高的检索偏差，我们提出了一种生成查询的方法，旨在改善训练数据和查询分布对检索能力的负面影响。在音乐、播客和图书等领域的数据集上，使用 CtrlQGen 明显减少了密集检索模型的可检索性偏差。

Mar, 2023

仅需要你一点帮助就可以发现实体

论文提出了在缺乏背景知识和长尾实体的情况下，通过自动化生成实体出现位置的候选项并结合用户反馈来提高实体链接的准确性的方法。选择了基于梯度互缠的多样化和文本相关性方法作为生成候选项的方法，并在 FACC 数据集上进行了广泛的实验，展示了该方法的有效性。

Oct, 2018

EntQA: 实体链接问答

EntQA 模型通过借鉴问题解答技术，在不需要已知实体的情况下，快速定位文档中的潜在实体，并在 GERBIL 基准测试中获得了良好的结果。

Oct, 2021

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021

知识增强微调：更好地处理对话生成中的未知实体

本篇论文提出了通过外部知识库训练对话系统，解决无法预测未知实体的问题，具有良好的实验效果。

Sep, 2021

超越 NED：基于知识库的复杂问答快速高效搜索空间削减

CLOCQ 是一种基于 KB 感知信号的高效方法，通过 score-ordered KB 列表的前 k 个查询处理器，将语义匹配、与问题相关性、候选项间的协同性以及 KB 图的连接性信号相结合，剪枝掉搜索空间中的非相关部分，实验表明 CLOCQ 在复杂问题的 QA 基准测试中表现优于现有的基线。

Aug, 2021

在实体类别跨度上混合上下文粒度以提高问题回答数据的实体链接

研究实体链接及其在知识库问答中的应用，提出了一种使用不同粒度的上下文信息进行实体提及检测和消岐的神经网络架构，并使用 Wikidata 知识库建立了实体链接的问答数据基准。该方法在此数据上优于先前的最先进系统，结果平均得分提高了 8％，并且在不同实体类别上表现良好。

Apr, 2018

面向实体集扩展和分类扩展的统一分类指导指令调整框架

通过利用现有的分类法作为实体关系的丰富来源，运用指导调优来微调大规模语言模型以生成父节点和同级实体，本文提出了统一的分类法指导的指令调优框架，有效地解决了实体集扩展、分类法扩展和种子引导分类法构建这三个任务，并且在多个基准数据集上的广泛实验证明了 TaxoInstruct 的有效性，其在这三个任务上优于特定任务的基线方法。

Feb, 2024

QUEST：一种具有隐式集合操作的实体检索查询数据集

使用维基百科分类名，我们半自动构建了一个包含 3357 个自然语言查询的 QUEST 数据集，并用于挑战现代检索系统对于含有隐式集合操作的查询的应对能力，发现包含否定和连接的查询尤其具有挑战性。

May, 2023