我们通过手动创建一个高质量的事实问答近义词语料库,并与先前工作中的其他相关度量标准相结合,以评估现代大型语言模型(LLMs)的语义一致性,以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估,我们展示了令人鼓舞的结果,显著超越了基线水平。
Nov, 2023
我们提出了 ConferenceQA 数据集,基于 LLMs 的会议问答研究,使用检索方法增强 LLMs 的问答能力。
Oct, 2023
通过使用大型语言模型,本文研究了这些模型的多语言能力。初步结果表明,将原始语言环境、问题和答案翻译成高资源语言会产生最佳结果。
Feb, 2024
本文针对问答系统的发展历程、评估指标及其相应的理论框架进行综述,并探讨了相关的评估方法和数据集。
Sep, 2022
大语言模型在自然语言处理领域中具有重要意义,然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力,需要更加健全的评估机制来衡量其性能。
本文对目前最先进的对话问答系统进行了首次的大规模人类评估,发现人类与机器之间的对话存在显著差异。此外,基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略,讨论了构建更好的对话问答系统的未来方向。
Dec, 2021
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并提出了建立带归属特性的 LLMs 的可能方向。
Dec, 2022
借助大型语言模型的上下文学习能力,我们提出了一个更好的 VQA 评估指标,该指标在多个 VQA 模型和基准测试中与人类判断更好地相关,希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。
验证与归因对于领域特定的语言模型在高风险领域中提供准确信息至关重要,本研究通过领域专家的参与,对领域特定的语言模型生成的回答进行事实性和归因方面的评估研究,并构建了包含 32 个领域,2177 个问题以及验证答案和归因的高质量长型问答数据集 ExpertQA。
Sep, 2023
通过人工评估,我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果,且所有模型的真实性能均被显著低估,同时超过 50%的词汇匹配失败归因于意义相当的答案, 正则匹配排名与人类判断一致
May, 2023