使用领域内嵌入初始化来提升低计算语言建模
本文介绍了如何使用 LSI 模型从最新的知识图谱中插入诸如罕见术语、新兴术语之类的领域特定词汇向量,以生成可靠的罕见和 OOV 术语的嵌入向量。以医学为例,使用 MeSH 知识图谱来插入生成生物医学术语嵌入向量,无需重新训练即可评估所得嵌入模型的可靠性。
Oct, 2022
为了保证用户体验,本文提出了一种新颖的神经句子嵌入方法,通过在低维连续向量空间中表示句子来区分领域内和领域外的句子,并通过学习以识别领域外的句子。 在八个领域的对话系统中实验比较表明,我们提出的方法在所有测试中都获得了最高的准确性。
Jul, 2018
本研究探讨了深度学习中用于嵌入的各种随机和预先训练的初始化方法对四个自然语言处理任务性能的影响,结果表明预先训练的嵌入略优于随机初始化,但只要方差保持合理,各种随机初始化方法并没有显著差异,并发现高方差初始化会阻止网络使用嵌入空间而强制其使用其他自由参数来完成任务。
Nov, 2017
探索对抗训练方法以学习领域不变特征,从而使语言模型可以对域外数据集进行良好的推广。我们还审查了各种其他方法来提高我们的模型性能,包括通过改写句子实现数据增强、将回答跨度预测的结尾词映射到开始词上以及精心设计的退火函数。我们的初步结果表明,在结合这些方法的情况下,与基线相比,在域外验证数据集上我们能够实现 EM 分数 15.2% 的提高和 F1 分数 5.6% 的提高。
Jun, 2022
在理解预训练语言模型对话建模能力方面,我们提出了一种句子入侵检测任务,并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD,显示预训练 LM 在域内评估中表现出色,但在跨域设置中经验了大幅下降,表明其对跨域推广的能力有限。进一步的,在一个新的语言探测数据集上的结果表明,在跨域设置中有很大的改进空间。
Mar, 2021
研究了低资源语言模型预训练,当可用的句子少于 100,000 条时。在低资源情况下,统计 n-gram 语言模型优于最先进的神经模型,主要是因为前者专注于局部上下文。因此,引入了三种方法来提高神经模型在低资源环境下的性能,发现限制模型的自我注意力是最有效的方法,在英语、印地语和土耳其语等多种语言的下游任务中,NLI 和 POS 标记的准确性提高了高达 5%。
May, 2022