本研究通过切片研究分析,探讨了神经语言模型如何利用其先前的语境。结果显示,模型能有效地利用大约 200 个标记的语境,但对远古语境的词序并不敏感,而是将其建模为一个粗糙的语义领域或主题,同时这项研究还为基于缓存的模型的最近的成功提供了启示。
May, 2018
本文通过详细的实证研究探讨了神经网络模型架构(如:LSTM、CNN 或自我注意力)对端到端 NLP 任务准确性和语言表示质量影响的权衡,研究结果表明预训练的双向语言模型可以学习到关于语言结构比以往认为的更多,无论采用何种架构,都是学习到高质量的上下文表示。
Aug, 2018
本文研究神经网络在 OCR 领域的应用,利用 LSTMs 相对于 HMM 系统的显著差异 ——LSTMs 没有显性的上下文限制,而是学习了一种隐式的 LM,实现了 2.4%的 CER 提升,而 LSTM 的隐式 LM 可以使用最多 5 个字符的上下文。
本文探索多句子语境下神经语言模型的应用,并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。
Nov, 2019
通过比较多种 BERT-based 语言模型中的语境化词嵌入,我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集,并收集了人类的相关性判断。结果显示,这些语言模型的语义表达在人类判断中捕捉到一些差异,但不能达到人类水平。与英语不同,我们发现在西班牙语中,模型规模与性能之间没有相关性。此外,我们还发现了目标名词消歧的陈规轨迹,并在英语中部分复制了这一结果。我们贡献了(1)一组包含人类相关性判断的西班牙语句子刺激数据集,以及(2)认识到语言模型规格(结构,训练方案)对语境化嵌入的影响。
Jun, 2024
在这项研究中,我们提出了一种新的方法将语料库级别的语篇信息纳入语言模型中,称之为 “大背景语言模型”。我们采用基于长短时记忆单元 (LSTM) 的晚期融合方法,通过对 IMDB、BBC 和 Penn Tree Bank 三个语料库的评估,证明了所提出的模型显著改善了困惑度。通过分析训练的大背景语言模型,我们发现增加上下文句子数量最能使内容单词 (包括名词、形容词和动词) 受益。这表明大背景语言模型通过更好、更简单地捕捉文档的主题,改进了非条件语言模型。
Nov, 2015
本文介绍了 CLSTM 模型,该模型将上下文特征(如主题)纳入模型中,在两个语料库上的实验结果表明,使用单词和主题作为特征可以提高模型在 NLP 任务中的性能,并在问题回答、句子完成、释义生成和对话系统中的下一句预测等 NL 应用程序中发挥重要作用。
Feb, 2016
本文研究了语境化语言模型的多义词辨别能力。作者提出了一个人工注释的数据集,用于评估多义词词义的相似性,发现多义词的词义相似性介于相同和同音异义之间,并呈现出一定的词义变化规律性。BERT Large 在相似性等级方面表现最佳,但无法一致地复制观察到的相似性模式,并且在某些类型的多义词变化上存在问题。
Sep, 2021
我们的研究使用最新的上下文语言模型对词汇歧义的心理学理解进行了一系列模拟,发现它们捕捉了单义词、同音异义词和多义词之间的微妙有意义的区别,为现代心理学理解词汇歧义提供了量化支持,并提出了理解上下文信息如何跨不同时间尺度塑造词汇意义的新挑战。
Apr, 2023
该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词,并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序,而 LSTM 模型则更加侧重于先前单词的语义要点,以及其与列表中其他单词的关系。
Oct, 2022