基于进化算法的自动问答框架
本文通过在神经网络框架中密切模拟问题,引入句法信息来帮助编码问题,并将不同类型的问题和共享信息建模为适应性任务,并提出适应性模型,从而在 Stanford 问题回答数据集(SQuAD)上证明这些方法可帮助获得比竞争基准更好的结果。
Mar, 2017
本研究提出了一种灵活和高效的架构,旨在通过考虑问题、回答预测和置信度得分来从候选答案中选出最佳答案,将专家代理与该架构相结合,从而在多域和多数据集方案中实现了先前的多代理和多数据集方法所不能达到的表现。
Dec, 2021
应用深度学习框架解决非事实类问答任务,在保险领域创建和发布了问答语料库,实验结果表明性能优于基线方法和其他技术,对于这个高度具有挑战性的任务,测试集的最高准确率可达到 65.3%,具有广泛的实用潜力。
Aug, 2015
本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果,旨在理解和比较其特性,以迈向实现在多个领域中的泛化能力。研究发现,预测错误反映了某些模型特定偏差,本文对此进行了进一步讨论。
Jun, 2018
本研究提出一种算法,利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式,自动生成自然问题(NQ)数据集中的问题,同时使用神经分类器检测并去除不合法的问题,从而生成高质量的数据集,提高了 QA 表现,该算法在低资源环境下使用,扩展了 QA 系统的规模,同时保持了训练数据的质量。
Oct, 2022
本研究提出了一个基于 Web 的 UI 框架,通过整合可视化和分析工具来提供有关 QA 模型性能的信息,并帮助 QA 模型研究人员改进其模型的性能。
Dec, 2018
为了解决语言模型在知识不断演进的情况下需要获取新知识并更新旧知识的问题,我们引入了一个新颖的基准测试,EvolvingQA,它用于训练和评估语言模型在一个不断演进的维基百科数据库上的能力,通过引入问题回答作为下游任务模拟了真实世界应用。通过研究发现,现有的持续学习基准在更新和遗忘过时知识方面存在困难,主要是由于小的权重梯度导致模型无法学习到更新的知识。此外,我们发现模型在提供数值或时间答案以及问及更新知识的问题上遇到了较大困难。我们的工作旨在对真实世界信息的动态性进行建模,并为语言模型的演进适应能力提供了一个强有力的度量。
Nov, 2023
我们提出了一种无监督训练 QA 模型的方法,该方法使用生成的伪数据训练,为 QA 训练生成问题,通过对相关检索到的句子应用简单模板,而非原始上下文句子来实现,从而使模型能够学习更复杂的上下文问题关系。 使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14%的 F1 分数相对提高,并且在答案为命名实体时提高 20%,从而实现无监督 QA 的最新性能。
Apr, 2020
本文提出了一个简单的构建神经 QA 基线系统的启发式方法,并发现了两种必要的构建高性能神经 QA 系统的因素:第一,处理上下文时需要注意问题单词;第二,需要超越简单的词袋建模,例如循环神经网络。我们的结果表明,满足这两个要求的 FastQA 系统可以与现有模型实现非常有竞争力的性能。我们认为这一令人惊讶的发现将之前系统的结果和最近 QA 数据集的复杂性放在了一个更加客观的角度。
Mar, 2017
本文创建了一个大规模的数据集 StreamingQA,以研究半参数问答模型在面对不断更新的知识时如何适应,并发现在适应过程中,参数化模型可以通过更新而不是完全重新训练来避免灾难性遗忘,但是过时的参数化 LMs 会使半参数模型性能下降。
May, 2022