探索 LLMs 对长文问题回答的可行性
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
提出了一种具有迭代规划、检索和生成过程的长篇问答(Long-form question answering,LFQA)模型,该模型通过迭代过程直到生成给定问题的完整答案,解决了既有模型在处理复杂问题和知识聚合方面的限制,并在各种文本和实际指标上优于现有模型。
Nov, 2023
通过定义查询细化提示,可以提高大型语言模型在长篇输出评估和多方面问题回答中的表现,并在闭书问题回答设置中胜过完全微调模型,并取得与检索后生成开书模型相当的结果。
Oct, 2022
利用生成型大型语言模型(即 GPT-4)有望可靠地评估短答阅读理解问题,并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。
Oct, 2023
对长篇答案进行有针对性的评估研究,强调评估多维度因素,发现自动文本生成的评价指标不能预测人类喜好,建议未来的评估中,应该注重准确性、完整性和客观性等多个方面。
May, 2023
本研究通过利用法律和金融数据的半结构化特点,实现有效检索相关背景知识来解决将现有问答系统应用于法律和金融等专业领域所面临的挑战,使得大型语言模型在领域特定的问答任务中表现优异,同时提供有用的答案解释,鼓励将大型语言模型整合到未来的法律和金融自然语言处理系统中进行研究。
Oct, 2023
本研究介绍了 ProxyQA 框架,用于评估长文本生成能力,并通过评估器和生成的内容作为背景背景进行生成内容的质量评估,结果表明使用代理问题评估是一种高度自洽且与人工标准相关的验证方法。
Jan, 2024