PROXYQA：使用大型语言模型评估长文本生成的备选框架

Jan, 2024

PROXYQA：使用大型语言模型评估长文本生成的备选框架

PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models

Haochen Tan, Zhijiang Guo, Zhan Shi, Lu Xu, Zhili Liu...

TL;DR本研究介绍了 ProxyQA 框架，用于评估长文本生成能力，并通过评估器和生成的内容作为背景背景进行生成内容的质量评估，结果表明使用代理问题评估是一种高度自洽且与人工标准相关的验证方法。

Abstract

large language models (llms) have exhibited remarkable success in long-form context comprehension tasks. However, their capacity to generate long contents, such as reports and articles, remains insufficiently exp

large language models llms long-form text generation proxyqa evaluation

发现论文，激发创造

NovelQA: 一个长距离小说问答基准

使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现，结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战，强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

CaLMQA: 跨 23 种语言探索跨文化特定长篇问答

通过介绍 CaLMQA，一个涵盖 23 种语言的 2.6K 多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024

长跨度问答：通过并行评估自动生成问题和问答系统排序

通过使用大型语言模型的长期上下文能力，我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程，包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较，并使用 Bradley-Terry 模型进行排名，与绝对评分器相比，提供了一种更一致和区分性更强的评分机制。同时，我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法，并且我们的评估器与人类判断达到了很好的一致性，甚至在数据集中发现了错误。使用我们的自动化评估方法，我们展示了与无上下文（参数化知识）和基于检索的方法相比，使用整本书籍作为上下文可以获得更优秀的阅读理解性能。

May, 2024

探索 LLMs 对长文问题回答的可行性

从长文摘要生成问题的方法对于 LLMs 的性能造成挑战，表明 LLMs（如 ChatGPT）与开源 LLMs（Alpaca、Llama）之间存在性能差距。

Sep, 2023

长格式问答进展的障碍

该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战，在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性，且训练集和验证集存在显著重复。给出了缓解这些问题的建议。

Mar, 2021

针对闭卷长篇问答的查询精炼提示

通过定义查询细化提示，可以提高大型语言模型在长篇输出评估和多方面问题回答中的表现，并在闭书问题回答设置中胜过完全微调模型，并取得与检索后生成开书模型相当的结果。

Oct, 2022

使用改进大型语言模型的可解释的长篇法律问题回答

利用自然语言处理为法律文盲提供自动法律援助系统，该系统通过一种检索然后阅读的流程以生成对任何法定法律问题的长篇回答。

Sep, 2023

对长篇问答评估的关键评估

对长篇答案进行有针对性的评估研究，强调评估多维度因素，发现自动文本生成的评价指标不能预测人类喜好，建议未来的评估中，应该注重准确性、完整性和客观性等多个方面。

May, 2023

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

重新思考基于生成的大型语言模型对语义理解的评估

通过对 24 种模型的 11 个评估标准进行综合评估，本文首先回顾了当前的评估方法 —— 多项选择题回答（MCQA），并突出了 MCQA 的一些潜在缺点，接着引入了 RWQ-Elo 评分系统，通过 24 种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了 RWQ-Elo 系统的稳定性、注册新模型的可行性和其重塑 LLM 排行榜的潜力。

Mar, 2024