探索 LLMs 对长文问题回答的可行性

Sep, 2023

探索 LLMs 对长文问题回答的可行性

Investigating Answerability of LLMs for Long-Form Question Answering

Meghana Moorthy Bhat, Rui Meng, Ye Liu, Yingbo Zhou, Semih Yavuz

TL;DR从长文摘要生成问题的方法对于 LLMs 的性能造成挑战，表明 LLMs（如 ChatGPT）与开源 LLMs（Alpaca、Llama）之间存在性能差距。

Abstract

As we embark on a new era of llms, it becomes increasingly crucial to understand their capabilities, limitations, and differences. Toward making further progress in this direction, we strive to build a deeper understanding of the gaps between massive →

llms long-form question answering question-generation method abstractive summaries performance gaps

发现论文，激发创造

生成式长篇问答：相关性、忠实度和简洁性

本论文研究了长篇问答系统的相关性、可靠性和简洁性，旨在改进问题相关性、答案可靠性和简洁性等方面的答案质量。

Nov, 2022

长格式问答进展的障碍

该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战，在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性，且训练集和验证集存在显著重复。给出了缓解这些问题的建议。

Mar, 2021

使用改进大型语言模型的可解释的长篇法律问题回答

利用自然语言处理为法律文盲提供自动法律援助系统，该系统通过一种检索然后阅读的流程以生成对任何法定法律问题的长篇回答。

Sep, 2023

CaLMQA: 跨 23 种语言探索跨文化特定长篇问答

通过介绍 CaLMQA，一个涵盖 23 种语言的 2.6K 多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024

长文本问答：一种迭代计划 - 检索 - 生成的方法

提出了一种具有迭代规划、检索和生成过程的长篇问答（Long-form question answering，LFQA）模型，该模型通过迭代过程直到生成给定问题的完整答案，解决了既有模型在处理复杂问题和知识聚合方面的限制，并在各种文本和实际指标上优于现有模型。

Nov, 2023

针对闭卷长篇问答的查询精炼提示

通过定义查询细化提示，可以提高大型语言模型在长篇输出评估和多方面问题回答中的表现，并在闭书问题回答设置中胜过完全微调模型，并取得与检索后生成开书模型相当的结果。

Oct, 2022

LLMs 能评分短答阅读理解题：适用于低收入国家的基础识字能力评估

利用生成型大型语言模型（即 GPT-4）有望可靠地评估短答阅读理解问题，并通过使用新的数据集和自动评分过程提供了改进基础扫盲教育的可能性。

Oct, 2023

对长篇问答评估的关键评估

对长篇答案进行有针对性的评估研究，强调评估多维度因素，发现自动文本生成的评价指标不能预测人类喜好，建议未来的评估中，应该注重准确性、完整性和客观性等多个方面。

May, 2023

半结构领域中的检索辅助思维链

本研究通过利用法律和金融数据的半结构化特点，实现有效检索相关背景知识来解决将现有问答系统应用于法律和金融等专业领域所面临的挑战，使得大型语言模型在领域特定的问答任务中表现优异，同时提供有用的答案解释，鼓励将大型语言模型整合到未来的法律和金融自然语言处理系统中进行研究。

Oct, 2023

PROXYQA：使用大型语言模型评估长文本生成的备选框架

本研究介绍了 ProxyQA 框架，用于评估长文本生成能力，并通过评估器和生成的内容作为背景背景进行生成内容的质量评估，结果表明使用代理问题评估是一种高度自洽且与人工标准相关的验证方法。

Jan, 2024