StreamingQA:面向问答模型随时间适应新知识的基准测试
为了解决语言模型在知识不断演进的情况下需要获取新知识并更新旧知识的问题,我们引入了一个新颖的基准测试,EvolvingQA,它用于训练和评估语言模型在一个不断演进的维基百科数据库上的能力,通过引入问题回答作为下游任务模拟了真实世界应用。通过研究发现,现有的持续学习基准在更新和遗忘过时知识方面存在困难,主要是由于小的权重梯度导致模型无法学习到更新的知识。此外,我们发现模型在提供数值或时间答案以及问及更新知识的问题上遇到了较大困难。我们的工作旨在对真实世界信息的动态性进行建模,并为语言模型的演进适应能力提供了一个强有力的度量。
Nov, 2023
通过使用未标记的测试数据,我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案,然后在过滤掉低质量样本的同时将它们集成在一起,以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进,对于多样的提示更具鲁棒性,使语言模型保持稳定。
Oct, 2023
提出了一种新颖的 “持续更新问答 (CuQA)” 任务,其对语言模型的有效性进行多次大规模更新的测量,同时保留现有的知识;并引入了插件模块来处理更新,实验证明该方法相对于微调基准线要更有效。
Apr, 2022
RealTime QA 是一个动态的问答平台,使用 GPT-3 等大型预训练语言模型为基础构建了强大的基线模型,并追求及时应用,研究表明 GPT-3 可根据新检索到的文档适当更新其生成结果,但当检索到的文档提供不足信息时,可能会出现过时答案。
Jul, 2022
该研究探讨了大型语言模型的实际效果,并对比了检索增强语言模型的潜力。研究发现,与普通的大型语言模型不同,半参数语言模型将来自外部数据源的模型参数和知识结合起来进行预测。该模型通过视图、查询分析器 / 规划器和来源信息的创新应用使问题回答系统在精度和效率方面显著增强,可能还可用于其他 NLP 任务。
Jun, 2023
我们提出了一种无监督训练 QA 模型的方法,该方法使用生成的伪数据训练,为 QA 训练生成问题,通过对相关检索到的句子应用简单模板,而非原始上下文句子来实现,从而使模型能够学习更复杂的上下文问题关系。 使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14%的 F1 分数相对提高,并且在答案为命名实体时提高 20%,从而实现无监督 QA 的最新性能。
Apr, 2020
本研究提出了一个名为 BeamSearchQA 的新型问题回答管道,它通过使用大型语言模型迭代地生成关于原始问题的新问题,从而启用一个迭代推理过程,以便更好地捕捉和利用隐藏知识。实验结果表明,BeamSearchQA 明显优于其他零 - shot 基线,在处理开放性领域问题回答方面具有很强的有效性。
May, 2023
本文提出了一个复杂的时间问答(QA)数据集 Complex-TR,重点关注多答案和多跳的时间推理,并提出了一种新颖的数据增强策略来改善大型语言模型(LLMs)的复杂时间推理能力和鲁棒性。实验证明,我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。
Nov, 2023
本文通过在神经网络框架中密切模拟问题,引入句法信息来帮助编码问题,并将不同类型的问题和共享信息建模为适应性任务,并提出适应性模型,从而在 Stanford 问题回答数据集(SQuAD)上证明这些方法可帮助获得比竞争基准更好的结果。
Mar, 2017
本文提供了一个分析影片问答模型的框架,并利用可自定义的合成数据集对其进行分析,以了解对视频事件的时间依赖性进行推理的能力,验证了数据集中包含不同复杂度事件的重要性,以学习有效模型并改善整体性能。
Dec, 2016