生成式长篇问答:相关性、忠实度和简洁性
我们提出了一种新的端到端框架,用于解决长篇问答的生成问题,重点是如何生成更加真实准确的答案。通过增加细粒度的相关信息来强化生成模型,实验结果表明我们的方法比强基线模型在自动和人工评估指标上表现更好,并且能够生成流畅,相关且更加真实准确的答案。
Mar, 2022
提出了一种具有迭代规划、检索和生成过程的长篇问答(Long-form question answering,LFQA)模型,该模型通过迭代过程直到生成给定问题的完整答案,解决了既有模型在处理复杂问题和知识聚合方面的限制,并在各种文本和实际指标上优于现有模型。
Nov, 2023
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
对长篇答案进行有针对性的评估研究,强调评估多维度因素,发现自动文本生成的评价指标不能预测人类喜好,建议未来的评估中,应该注重准确性、完整性和客观性等多个方面。
May, 2023
从长文摘要生成问题的方法对于 LLMs 的性能造成挑战,表明 LLMs(如 ChatGPT)与开源 LLMs(Alpaca、Llama)之间存在性能差距。
Sep, 2023
本文提出了一个名为 ASQA 的任务,旨在回答需要深入解释的问题,并提出了一个在 ASQA 上测量表现的可靠度量标准,以及释放了一个新的数据集,用于解决长期问答任务中仍然存在的高质量数据缺乏和答案质量定义模糊的问题。
Apr, 2022
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
本文基于长篇问答系统,提出了提取 - 解除背景法来生成简洁回答,通过用户研究发现,超过 90%的 ELI5 领域的长篇答案可以通过至少一种系统充分概括,但是复杂和隐含的答案仍然有挑战。作者们提供了一个包含 1K 长篇回答和用户研究注释的提取式总结数据集,为提供多重粒度答案的 QA 代理迈出了一步。
May, 2023
该研究提出了一种基于自动问答的 faithfulness 评估度量方式(FEQA),并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。
May, 2020