长文本问答

Jul, 2019

ELI5: Long Form Question Answering

Angela Fan, Yacine Jernite, Ethan Perez, David Grangier, Jason Weston...

TL;DR这篇论文介绍了第一个大规模的长篇问答语料库，其中包括了 270,000 个 Reddit 论坛上的线索，使用多任务目标的诠释性模型表现最佳，但仍存在改进的余地。

Abstract

We introduce the first large-scale corpus for long-form question answering, a task requiring elaborate and in-depth answers to open-ended questions. The dataset comprises 270K threads from the Reddit forum ``Explain Like I'm Five'' (→

long-form question answering eli5 abstractive model multi-task objective human performance

发现论文，激发创造

长格式问答进展的障碍

该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战，在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性，且训练集和验证集存在显著重复。给出了缓解这些问题的建议。

Mar, 2021

如何回答复杂问题：长篇答案的话语结构

本篇论文通过研究三个数据集中的长篇答案，开发了一个六个句子级功能角色的本体论，并进一步分析了模型生成的答案。通过对 3.9k 句子和 640 个答案段落进行注释，我们希望能够鼓励未来的学者进行话语层模型的研究和长篇问答系统的评估。

Mar, 2022

简洁回答复杂问题：长篇答案摘要

本文基于长篇问答系统，提出了提取 - 解除背景法来生成简洁回答，通过用户研究发现，超过 90％的 ELI5 领域的长篇答案可以通过至少一种系统充分概括，但是复杂和隐含的答案仍然有挑战。作者们提供了一个包含 1K 长篇回答和用户研究注释的提取式总结数据集，为提供多重粒度答案的 QA 代理迈出了一步。

May, 2023

使用长输入文本进行问答的 QuALITY 模型

本文介绍了一个名为 QuALITY 的多项选择问答数据集，它包含英文上下文段落，其平均长度约为 5,000 个标记，远长于现有典型模型所能处理的长度。该数据集基于整篇文章编写和验证问题，有一半的问题无法在时间限制下回答，说明简单的浏览和搜索并不足以表现出优良的效果。作者的基准模型在这个任务上的表现较差（55.4％），并且显著落后于人类的表现（93.5％）。

Dec, 2021

长篇文档的分层问答

基于强化学习和词向量，提出了一种可以高效处理长篇文档的问答框架，该框架结合了快速筛选相关句子和精读相关句子的策略，并在 Wikireading 的一个挑战性子集和一组新的数据集上实现了最新的性能，同时使模型的速度提高 3.5 倍至 6.7 倍。

Nov, 2016

ELQA: 英文语言问题及答案语料库

本文介绍一个包含 18 万多个有关英语语言的问题和答案的共同数据集，这个数据集可以用于语言学习者的自然语言处理应用，并介绍了以这个数据集为基础的三个任务：1）回答质量分类、2）语义搜索查找相似问题和 3）回答生成，并展示了当前基于 Transformer 模型的优缺点和基线方法。该数据集和脚本已经公开发布用于未来的研究。

May, 2022

使用改进大型语言模型的可解释的长篇法律问题回答

利用自然语言处理为法律文盲提供自动法律援助系统，该系统通过一种检索然后阅读的流程以生成对任何法定法律问题的长篇回答。

Sep, 2023

简单有效的半监督问答

本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法，并通过对三个不同领域数据集的实验验证了其有效性。

Apr, 2018

AmazonQA：一项基于评论的问答任务

该研究提出了基于评论的问答系统，并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线，证明了这个新任务的挑战性。

Aug, 2019

对长篇问答评估的关键评估

对长篇答案进行有针对性的评估研究，强调评估多维度因素，发现自动文本生成的评价指标不能预测人类喜好，建议未来的评估中，应该注重准确性、完整性和客观性等多个方面。

May, 2023