对长篇问答评估的关键评估
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
提出了一种具有迭代规划、检索和生成过程的长篇问答(Long-form question answering,LFQA)模型,该模型通过迭代过程直到生成给定问题的完整答案,解决了既有模型在处理复杂问题和知识聚合方面的限制,并在各种文本和实际指标上优于现有模型。
Nov, 2023
本研究针对认知智能领域中的 Open Question Answering 任务进行评估,提出了 QA Evaluation 任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数,并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷,最终生成的数据集有望促进更有效的自动评估工具的发展。
May, 2023
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
本文提出了一个名为 ASQA 的任务,旨在回答需要深入解释的问题,并提出了一个在 ASQA 上测量表现的可靠度量标准,以及释放了一个新的数据集,用于解决长期问答任务中仍然存在的高质量数据缺乏和答案质量定义模糊的问题。
Apr, 2022
我们提出了一种新的端到端框架,用于解决长篇问答的生成问题,重点是如何生成更加真实准确的答案。通过增加细粒度的相关信息来强化生成模型,实验结果表明我们的方法比强基线模型在自动和人工评估指标上表现更好,并且能够生成流畅,相关且更加真实准确的答案。
Mar, 2022
从长文摘要生成问题的方法对于 LLMs 的性能造成挑战,表明 LLMs(如 ChatGPT)与开源 LLMs(Alpaca、Llama)之间存在性能差距。
Sep, 2023
通过采用职业人员 QA 竞赛来评估机器 QA 中答案的正确性,结合标准评估和一种更高效、稳健、轻量级的基于偏差 AE 分类器的匹配方法(CFMatch,小于 1 MB),培训和验证以更准确地评估答案的正确性,使得 QA 能够进一步发展。
Jan, 2024