神经语言模型中的隐含意义表示
该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明,虽然这些表示在许多任务中表现出色,但对于需要细粒度语言知识的任务(如连词识别)而言,它们还不能胜任。此外,作者还比较了不同预训练和监督预训练方法对于任务训练的影响。
Mar, 2019
本文通过详细的实证研究探讨了神经网络模型架构(如:LSTM、CNN 或自我注意力)对端到端 NLP 任务准确性和语言表示质量影响的权衡,研究结果表明预训练的双向语言模型可以学习到关于语言结构比以往认为的更多,无论采用何种架构,都是学习到高质量的上下文表示。
Aug, 2018
本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示,尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系,发现结构相似是最能影响语言表示相似性的,而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。
Jan, 2019
本研究分析了神经机器翻译模型在不同粒度上学习到的表示,并通过相关的外围特性对其质量进行评估,结果表明深层次的 NMT 模型学习了大量的语言信息,其中鲜明的发现包括:(i)词组结构和词类等语言单元在模型较低的层次上被捕捉;(ii)而词汇语义或非局部的句法和语义依存则在较高层次上表示更好;(iii)使用字符所学习的表示比使用子词单位所学习的更具有词形信息;(iv)多语言模型所学习的表示比双语模型更加丰富。
Nov, 2019
本文介绍了一种新型的深层上下文词表示方法,既能够建模单词用法的复杂特征 (如句法和语义),又能够建模这些用法在语言上下文中的变化 (即建模多义性),这些表示可以轻松地添加到现有模型中,并且可以显著提高 NLP 问题的性能。
Feb, 2018
提出了一种新颖的解释方法,利用人脑阅读复杂自然文本时的脑成像记录来解释最新的四个 NLP 模型 ——ELMo、USE、BERT 和 Transformer-XL 中的词和序列嵌入,研究它们在层深度、上下文长度和注意类型之间的差异,并推测改变 BERT 以更好地对齐脑成像记录将使其更好地理解语言。
May, 2019
该研究提出一种基于循环语言建模的神经模型,通过考虑作者和时间向量状态来捕捉作者社区的语言扩散趋势,从而超越了多个基于时间和非时间的语言基线,并学习了随时间变化的有意义的作者表示。
Sep, 2019
在 1295 种语言的大规模多语言数据集中训练神经网络模型,以研究神经模型对于语言结构所能学习到的广义化程度,发现神经网络模型在语言结构的广义化方面的表现并不好,并会存在误报,但有些表现仍然与语言学中的传统特征非常接近,为了鼓励在这个领域的持续研究,我们发布了多个资源,包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。
Jan, 2023
研究最近聚焦于神经语言模型的成功因素,测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力,本论文重现了最近论文的实验结果,显示了以字符串为基础的句法诱导训练的基本问题。
Apr, 2020