对长篇问答评估的关键评估
提出了一种新的评估基准用于评估现有的自动生成问题系统的性能,特别是长文本答案下的自动生成问题系统。研究表明,随着答案长度的增加,现有 AQG 方法的性能显著下降,变压器模型在长答案方面的表现优于其他 AQG 方法,但仍存在性能下降的情况,这表明长答案 QA 是未来研究的具有挑战性的基准任务。
Apr, 2020
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中ROUGE-L评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
本文对目前最先进的对话问答系统进行了首次的大规模人类评估,发现人类与机器之间的对话存在显著差异。此外,基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略,讨论了构建更好的对话问答系统的未来方向。
Dec, 2021
我们提出了一种新的端到端框架,用于解决长篇问答的生成问题,重点是如何生成更加真实准确的答案。通过增加细粒度的相关信息来强化生成模型,实验结果表明我们的方法比强基线模型在自动和人工评估指标上表现更好,并且能够生成流畅,相关且更加真实准确的答案。
Mar, 2022
提出了一种具有迭代规划、检索和生成过程的长篇问答(Long-form question answering,LFQA)模型,该模型通过迭代过程直到生成给定问题的完整答案,解决了既有模型在处理复杂问题和知识聚合方面的限制,并在各种文本和实际指标上优于现有模型。
Nov, 2023
大语言模型在自然语言处理领域中具有重要意义,然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力,需要更加健全的评估机制来衡量其性能。
Feb, 2024
研究提供了评估机器问答的清晰指南,并引入了Precise ANswer correctness Determination and Adjudication (PANDA),一个小巧高效、更准确地评估答案正确性的AC分类器。
Feb, 2024
通过对24种模型的11个评估标准进行综合评估,本文首先回顾了当前的评估方法——多项选择题回答(MCQA),并突出了MCQA的一些潜在缺点,接着引入了RWQ-Elo评分系统,通过24种大型语言模型的竞争性对战,模拟现实世界的使用情景,最后分析了系统特点、与先前排行榜的对比,揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。
Mar, 2024
通过使用大型语言模型的长期上下文能力,我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程,包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较,并使用 Bradley-Terry 模型进行排名,与绝对评分器相比,提供了一种更一致和区分性更强的评分机制。同时,我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法,并且我们的评估器与人类判断达到了很好的一致性,甚至在数据集中发现了错误。使用我们的自动化评估方法,我们展示了与无上下文(参数化知识)和基于检索的方法相比,使用整本书籍作为上下文可以获得更优秀的阅读理解性能。
May, 2024