基于密集检索的表格开放领域问答

ACLMar, 2021

基于密集检索的表格开放领域问答

Open Domain Question Answering over Tables via Dense Retrieval

Jonathan Herzig, Thomas Müller, Syrine Krichene, Julian Martin Eisenschlos

TL;DR本研究针对开放领域问题回答系统的表格数据提出了一种有效的检索方法，并通过训练和挖掘难例等技术，提高了回答的准确性和表现。

Abstract

Recent advances in open-domain qa have led to strong models based on dense retrieval, but only focused on retrieving textual passages. In this work, we tackle →

open-domain qa table data retrieval natural questions pre-training

发现论文，激发创造

通过语法和结构感知的密集检索增强开放域表格问答

提出了一种语法和结构感知的开放域表格问题回答方法，通过提供问题的语法表示和利用表格的结构头部和数值表示来避免细粒度的句法和结构信息丢失，实验结果表明该方法在 NQ-tables 数据集上达到了最先进的效果，并在一个新的开放域 Text-to-SQL 数据集上超越了强基线。

Sep, 2023

表格与文本的开放式问题回答

该论文研究了开放式问答系统（QA）在同时检索结构化表格和非结构化文本数据时的困难之处，并提出了两种新技术以提高检索准确率，让模型的精确匹配得分提高至 27% 以上，这为该领域的未来研究提供了重要的参考价值。

Oct, 2020

混合模态表示学习与预训练用于开放领域问答系统中的联合表格和文本检索

本研究提出了一个优化的 OpenQA 表格文本检索器（OTTeR），通过增强混合模态表示学习，采用混合模态负面抽样策略和综合预训练来解决表格文本不一致和数据稀疏性问题，并在实验中取得最先进的结果。

Oct, 2022

去噪表格文本检索在开放域问答中的应用

通过使用少量错误标签的训练数据集，以及整合表级排序信息来回答需要表格推理的问题，我们提出了 Denoised Table-Text Retriever（DoTTeR），并在检索召回和下游 QA 任务中显著优于强基准方法。

Mar, 2024

基于检索增强生成的端到端表格问答

我们提出了 T-RAG，一个端到端的表格问答（Table QA）模型，其中一个非参数密集向量索引与 BART 共同微调，通过一个统一的流程搜索表格语料库来直接定位正确答案，并将其应用到最近的开放域表格 QA 基准测试中，并证明微调后的 T-RAG 模型在端到端表格 QA 和表格检索任务中均能够取得最先进的性能。

Mar, 2022

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法，为终端 QA 系统的最新性能奠定了基础。

Apr, 2020

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021

一种带有统一知识接口的开放领域问答系统

本文提出了一种基于数据和文本的统一问答框架 UDT-QA，并使用数据到文本方法将 Wiki 百科中的表格和 Wikidata 中的图表达为口语化信息，以扩展知识索引。实验证明，该方法取得了自然问答 (Single-model state-of-the-art) 的最佳成果，并表明对于调整和热插拔的两种情况，口语化知识的优先考虑可以优化答案推理。

Oct, 2021

大规模学习短语的密集表示

该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示，并使用负采样方法提高性能，能够取代当前依赖于稀疏表示的短语检索模型，实现更好的开放域问答准确性并被用作密集知识库。

Dec, 2020

弱监督开放域问答的潜在检索

本文提出了一种新的 open domain question answering 方法，利用问题 - 回答对来同时学习 retriever 和 reader，将 Wikipedia 中的证据检索视为潜在变量，并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试，表明在用户真正寻求答案的数据集上，学习检索至关重要，完全匹配方面的得分比传统的 IR 系统（如 BM25）高达 19 个点。

Jun, 2019