领域匹配的密集检索预训练任务
利用大型预训练语言模型作为综合数据生成器,对于信息检索任务的未监督数据的微调,可以使检索器在零样本学习和有监督学习的任务中获得更好的表现
Feb, 2022
本研究提出了一种简单且资源有效的方法,利用现有的预训练序列到序列模型来建立强大的问题生成器,并通过渐进式预训练算法确保每个批次有效的负样本存在,以预训练段落编码器。通过三个数据集的实验,本方法在使用 7 倍的计算资源进行预训练的现有浓缩检索方法方面取得了更好的效果。
Apr, 2020
研究表明,机器阅读理解数据集可以用于训练高性能的神经信息检索系统,利用序列到序列生成器生成的合成样本的预训练可以提高神经信息检索系统的鲁棒性和检索表现。
Apr, 2021
本文介绍了一种使用维基百科引用构建大规模预训练语料库以满足开放域问答系统的需求的方法,并测试了改进后的 retriever 和 reader 在精确度和 top-20 准确率方面的表现。
Mar, 2022
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
本文介绍了一个多任务学习的神经检索模型,该模型在少样本、领域内外多种问题下表现良好,能够有效地检索到相关上下文信息,并且在多个基准测试中实现了与或优于目前的最新技术结果。
Jan, 2021
使用 NLP 和多模式学习,该论文介绍了如何通过搜索引擎检索来增强预训练模型,从而在测试时从互联网中检索到有用的数据,并更新模型以解决模型的不确定性,取得了零样本性能的显著改进。
Nov, 2023
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020