长文本问答
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
本篇论文通过研究三个数据集中的长篇答案,开发了一个六个句子级功能角色的本体论,并进一步分析了模型生成的答案。通过对 3.9k 句子和 640 个答案段落进行注释,我们希望能够鼓励未来的学者进行话语层模型的研究和长篇问答系统的评估。
Mar, 2022
本文基于长篇问答系统,提出了提取 - 解除背景法来生成简洁回答,通过用户研究发现,超过 90%的 ELI5 领域的长篇答案可以通过至少一种系统充分概括,但是复杂和隐含的答案仍然有挑战。作者们提供了一个包含 1K 长篇回答和用户研究注释的提取式总结数据集,为提供多重粒度答案的 QA 代理迈出了一步。
May, 2023
本文介绍了一个名为 QuALITY 的多项选择问答数据集,它包含英文上下文段落,其平均长度约为 5,000 个标记,远长于现有典型模型所能处理的长度。该数据集基于整篇文章编写和验证问题,有一半的问题无法在时间限制下回答,说明简单的浏览和搜索并不足以表现出优良的效果。作者的基准模型在这个任务上的表现较差(55.4%),并且显著落后于人类的表现(93.5%)。
Dec, 2021
基于强化学习和词向量,提出了一种可以高效处理长篇文档的问答框架,该框架结合了快速筛选相关句子和精读相关句子的策略,并在 Wikireading 的一个挑战性子集和一组新的数据集上实现了最新的性能,同时使模型的速度提高 3.5 倍至 6.7 倍。
Nov, 2016
本文介绍一个包含 18 万多个有关英语语言的问题和答案的共同数据集,这个数据集可以用于语言学习者的自然语言处理应用,并介绍了以这个数据集为基础的三个任务:1)回答质量分类、2)语义搜索查找相似问题和 3)回答生成,并展示了当前基于 Transformer 模型的优缺点和基线方法。该数据集和脚本已经公开发布用于未来的研究。
May, 2022
该研究提出了基于评论的问答系统,并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线,证明了这个新任务的挑战性。
Aug, 2019
对长篇答案进行有针对性的评估研究,强调评估多维度因素,发现自动文本生成的评价指标不能预测人类喜好,建议未来的评估中,应该注重准确性、完整性和客观性等多个方面。
May, 2023