利用检索方法对长格式问答中的例证进行建模

May, 2022

利用检索方法对长格式问答中的例证进行建模

Modeling Exemplification in Long-form Question Answering via Retrieval

Shufan Wang, Fangyuan Xu, Laure Thompson, Eunsol Choi, Mohit Iyyer

TL;DR本研究探讨了如何在长篇问答中使用实例来解释和澄清概念，并提出了一个将举例作为文章的检索问题，并使用大量人工撰写的文章示例对其进行评估的自动评估方法，该方法与人工评估具有良好的一致性。

Abstract

exemplification is a process by which writers explain or clarify a concept by providing an example. While common in all forms of writing, exemplification is particularly useful in the task of →

exemplification long-form question answering computational study retrieval problem human-written examples

发现论文，激发创造

长格式问答进展的障碍

该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战，在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性，且训练集和验证集存在显著重复。给出了缓解这些问题的建议。

Mar, 2021

长文本问答：一种迭代计划 - 检索 - 生成的方法

提出了一种具有迭代规划、检索和生成过程的长篇问答（Long-form question answering，LFQA）模型，该模型通过迭代过程直到生成给定问题的完整答案，解决了既有模型在处理复杂问题和知识聚合方面的限制，并在各种文本和实际指标上优于现有模型。

Nov, 2023

理解长文问答的检索增强

通过使用相同的证据文档比较使用不同检索增强模型生成的答案，分析了检索增强对不同语言模型的影响，以及检索文档集的质量对相同语言模型生成的答案的影响。研究了生成答案的各种属性（如流利度、长度、差异等），重点是将生成的长篇答案与上下文证据文档进行归因。我们收集了对答案归因的人工注释，并评估了自动判断归因的方法。研究结果揭示了检索增强对基于语言模型的长篇、知识丰富文本生成的影响，分析了归因错误的主要原因，为未来的研究提供了方向。

Oct, 2023

对长篇问答评估的关键评估

对长篇答案进行有针对性的评估研究，强调评估多维度因素，发现自动文本生成的评价指标不能预测人类喜好，建议未来的评估中，应该注重准确性、完整性和客观性等多个方面。

May, 2023

生成式长篇问答：相关性、忠实度和简洁性

本论文研究了长篇问答系统的相关性、可靠性和简洁性，旨在改进问题相关性、答案可靠性和简洁性等方面的答案质量。

Nov, 2022

使用改进大型语言模型的可解释的长篇法律问题回答

利用自然语言处理为法律文盲提供自动法律援助系统，该系统通过一种检索然后阅读的流程以生成对任何法定法律问题的长篇回答。

Sep, 2023

针对闭卷长篇问答的查询精炼提示

通过定义查询细化提示，可以提高大型语言模型在长篇输出评估和多方面问题回答中的表现，并在闭书问题回答设置中胜过完全微调模型，并取得与检索后生成开书模型相当的结果。

Oct, 2022

一个基于问题蕴涵的问答方法

本文提出了一种新的基于问题蕴含识别（Recognizing Question Entailment）的问答（Question Answering）方法，基于机器学习和深度学习算法，结合信息检索模型，在医疗领域实现了显著的问答准确率提升。

Jan, 2019

领域专属问答的检索增强生成

为 Adobe 产品建立内部问答系统，提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法，展示了微调检索器在最终生成中带来的重大改进，降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。

Apr, 2024

简洁回答复杂问题：长篇答案摘要

本文基于长篇问答系统，提出了提取 - 解除背景法来生成简洁回答，通过用户研究发现，超过 90％的 ELI5 领域的长篇答案可以通过至少一种系统充分概括，但是复杂和隐含的答案仍然有挑战。作者们提供了一个包含 1K 长篇回答和用户研究注释的提取式总结数据集，为提供多重粒度答案的 QA 代理迈出了一步。

May, 2023