使用领域内嵌入初始化来提升低计算语言建模

EMNLPSep, 2020

使用领域内嵌入初始化来提升低计算语言建模

Improving Low Compute Language Modeling with In-Domain Embedding Initialisation

Charles Welch, Rada Mihalcea, Jonathan K. Kummerfeld

TL;DR使用数据领域中的输入嵌入对语言模型进行初始化和冻结，可在有限的计算资源下提高语言模型性能，这种方法适用于各种应用程序领域且与输入和输出嵌入打结的标准约定无关。

Abstract

Many nlp applications, such as biomedical data and technical support, have 10-100 million tokens of in-domain data and limited computational resources for learning from it. How should we train a →

nlp language model in-domain data input embeddings perplexity

发现论文，激发创造

预训练语言模型中的无监督域聚类

本文提出了一种基于大规模预训练语言模型的领域数据选择方法，通过度量句子的隐式相似性进行聚类，仅需要少量数据即可有效提高神经机器翻译的准确性。

Apr, 2020

元学习实现终身领域词嵌入

提出了一种新的领域嵌入学习方法，通过元学习将过去领域的语料库利用起来来扩充当前领域的语料库，从而生成高质量的领域嵌入，从而提高下游 NLP 任务的性能。

May, 2018

在线学习计算词向量

本文提出一种从少量辅助数据中即时预测稀有词嵌入的方法，并在阅读理解、文本蕴含和语言建模等任务中，与仅在任务端训练的嵌入相比，展现了更好的结果。

Jun, 2017

利用知识图谱和潜在语义插补法更新科学词嵌入

本文介绍了如何使用 LSI 模型从最新的知识图谱中插入诸如罕见术语、新兴术语之类的领域特定词汇向量，以生成可靠的罕见和 OOV 术语的嵌入向量。以医学为例，使用 MeSH 知识图谱来插入生成生物医学术语嵌入向量，无需重新训练即可评估所得嵌入模型的可靠性。

Oct, 2022

仅使用领域内语句的神经句子嵌入在对话系统中检测领域外句子

为了保证用户体验，本文提出了一种新颖的神经句子嵌入方法，通过在低维连续向量空间中表示句子来区分领域内和领域外的句子，并通过学习以识别领域外的句子。在八个领域的对话系统中实验比较表明，我们提出的方法在所有测试中都获得了最高的准确性。

Jul, 2018

深度学习任务中词嵌入初始化的探索

本研究探讨了深度学习中用于嵌入的各种随机和预先训练的初始化方法对四个自然语言处理任务性能的影响，结果表明预先训练的嵌入略优于随机初始化，但只要方差保持合理，各种随机初始化方法并没有显著差异，并发现高方差初始化会阻止网络使用嵌入空间而强制其使用其他自由参数来完成任务。

Nov, 2017

QAGAN：学习领域不变的语言特征的对抗方法

探索对抗训练方法以学习领域不变特征，从而使语言模型可以对域外数据集进行良好的推广。我们还审查了各种其他方法来提高我们的模型性能，包括通过改写句子实现数据增强、将回答跨度预测的结尾词映射到开始词上以及精心设计的退火函数。我们的初步结果表明，在结合这些方法的情况下，与基线相比，在域外验证数据集上我们能够实现 EM 分数 15.2% 的提高和 F1 分数 5.6% 的提高。

Jun, 2022

文档连贯性建模评估

在理解预训练语言模型对话建模能力方面，我们提出了一种句子入侵检测任务，并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD，显示预训练 LM 在域内评估中表现出色，但在跨域设置中经验了大幅下降，表明其对跨域推广的能力有限。进一步的，在一个新的语言探测数据集上的结果表明，在跨域设置中有很大的改进空间。

Mar, 2021

面向神经机器翻译的无监督领域自适应与领域感知特征嵌入

提出一种通过使用语言建模来学习领域感知特征嵌入，在多个实验中提高神经机器翻译性能的方法，该方法允许使用者指定特定领域的文本表示。

Aug, 2019

低资源语言建模中上下文的重要性

研究了低资源语言模型预训练，当可用的句子少于 100,000 条时。在低资源情况下，统计 n-gram 语言模型优于最先进的神经模型，主要是因为前者专注于局部上下文。因此，引入了三种方法来提高神经模型在低资源环境下的性能，发现限制模型的自我注意力是最有效的方法，在英语、印地语和土耳其语等多种语言的下游任务中，NLI 和 POS 标记的准确性提高了高达 5%。

May, 2022