自然语言处理中的神经非监督领域自适应 -- 一项调查
通过使用神经网络的词表示方法,在与源领域语法相似的情况下,重新审视了领域适应。并提供了一种简单的方法,通过使用少量的部分注释来适应解析器。文章提供的新算法的结果,使华尔街日报测试集的最新单模型状态达到94.3%,比之前最先进的92.6%有一个绝对提高了1.7%。
May, 2018
本文提出了一种无监督的自适应方法,使用伪域内语料库通过微调预先训练的域外NMT模型,借助词典诱导提取域内词汇,并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库,在20对自适应设置和两种模型架构的五个领域中,我们的方法始终显示出提高,而不需要使用任何域内平行句子,改进了未经过调整的模型高达14 BLEU和强反向翻译基线的最高2 BLEU。
Jun, 2019
探讨了语言模型适应与机器学习理论的关系,研究了大型领域外训练集和小型领域内训练集之间的训练方法的优劣,提出了领域外预训练加上领域内微调比单独应用更为通用,并提出了基于数据选择的适应技术的公共框架。
Sep, 2021
本文比较了NLP中使用不同方法处理数据量不足的问题,提供了使用少量标记训练数据来构建NLP应用的指南。虽然预训练语言模型的转移学习在各种任务中都表现出色,但其他方法的性能差别不大,而且需要的计算成本更少,从而显著降低了预算和环境成本。我们研究了几种这样的替代方案的性能权衡,包括可以加速训练175K倍且不需要单个GPU的模型。
Mar, 2022
本研究表明,使用抽象摘要和关键词提取等技术,从不结构化的数据中构建一个紧凑的子集,可以更有效地和更快地为传统预训练及任务特定分类器的训练提供有关领域内的信息,减少了预训练时间,并在针对六个不同组合的数据集并使用两种不同的NLMs的条件下表现出了优越的结果。
Aug, 2022
本文介绍了近年来自然语言处理中预训练语言模型(PLMs)的最新进展,并为适应目标领域提供了一种有效的方法。考察了PLMs的应用问题并提出了域自适应方法的分类方案,包括输入扩充、模型优化和个性化等方法。
Nov, 2022