利用检索方法对长格式问答中的例证进行建模
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
提出了一种具有迭代规划、检索和生成过程的长篇问答(Long-form question answering,LFQA)模型,该模型通过迭代过程直到生成给定问题的完整答案,解决了既有模型在处理复杂问题和知识聚合方面的限制,并在各种文本和实际指标上优于现有模型。
Nov, 2023
通过使用相同的证据文档比较使用不同检索增强模型生成的答案,分析了检索增强对不同语言模型的影响,以及检索文档集的质量对相同语言模型生成的答案的影响。研究了生成答案的各种属性(如流利度、长度、差异等),重点是将生成的长篇答案与上下文证据文档进行归因。我们收集了对答案归因的人工注释,并评估了自动判断归因的方法。研究结果揭示了检索增强对基于语言模型的长篇、知识丰富文本生成的影响,分析了归因错误的主要原因,为未来的研究提供了方向。
Oct, 2023
对长篇答案进行有针对性的评估研究,强调评估多维度因素,发现自动文本生成的评价指标不能预测人类喜好,建议未来的评估中,应该注重准确性、完整性和客观性等多个方面。
May, 2023
通过定义查询细化提示,可以提高大型语言模型在长篇输出评估和多方面问题回答中的表现,并在闭书问题回答设置中胜过完全微调模型,并取得与检索后生成开书模型相当的结果。
Oct, 2022
本文提出了一种新的基于问题蕴含识别(Recognizing Question Entailment)的问答(Question Answering)方法,基于机器学习和深度学习算法,结合信息检索模型,在医疗领域实现了显著的问答准确率提升。
Jan, 2019
为 Adobe 产品建立内部问答系统,提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法,展示了微调检索器在最终生成中带来的重大改进,降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。
Apr, 2024
本文基于长篇问答系统,提出了提取 - 解除背景法来生成简洁回答,通过用户研究发现,超过 90%的 ELI5 领域的长篇答案可以通过至少一种系统充分概括,但是复杂和隐含的答案仍然有挑战。作者们提供了一个包含 1K 长篇回答和用户研究注释的提取式总结数据集,为提供多重粒度答案的 QA 代理迈出了一步。
May, 2023