研究预训练语言模型在跨领域数据集上,更接近通用人工智能的一步
本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法,使用单个 GPU,一天内可以获得一种新的外语 BERT 基础模型,并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。
Feb, 2020
通过对 GPT 和 T5 模型进行跨语言分类,本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本,且在跨语言预测方面表现显著优于随机预测,并与现有的最先进的跨语言模型具有竞争力。
Sep, 2021
本文概述了预训练语言模型在对话系统中的应用,目的是讨论这些模型是否能克服对话系统所面临的挑战,以及如何利用它们的架构来克服这些挑战,并探讨了对话系统领域的开放性挑战。
Apr, 2021
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
研究表明,对面向单一领域的数据进行预训练,也可以得到性能强大且经济实惠的替代解决方案,本文以 StackOverflow 为例,使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练,并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。
Jun, 2023
本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型,同时比 BERT BASE 小 3.3 倍,快 5.1 倍。
Jun, 2021
本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
本文研究了两种先前提出的预训练语言模型(PLMs),分析了不同任务自适应预训练策略对图转文本生成中 PLMs 的影响,发现 PLMs BART 和 T5 实现了新的最先进结果,并且任务适应性预训练策略进一步提高了它们的性能。
Jul, 2020
本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验,包括量化计算、识别正则表达式和对字符串的推理,我们发现预先训练的模型明显优于可比较的非预先训练的神经模型,即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时,我们进一步探讨了不同文本领域对用户体验的影响,并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下,也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。
Oct, 2022
本文中,我们展示了数据处理、预训练任务、神经网络建模或微调的方法如何单独影响性能,以及当这些方法共同考虑预训练模型时,语言模型在特定的问答任务上表现出最佳结果;具体地,我们提出了一种扩展的预训练任务和一种新的邻居感知机制,能更多地关注邻近的标记,从而捕捉预训练语言建模的上下文丰富性。我们的最佳模型在 SQuAD 1.1 上实现了 95.7%的 F1 和 90.6%的 EM,也在 SQuAD 2.0 基准上超过了现有的预训练语言模型,如 RoBERTa,ALBERT,ELECTRA 和 XLNet。
Mar, 2022