将词向量与词分类器联系起来：面向语言建模的损失框架

Nov, 2016

将词向量与词分类器联系起来：面向语言建模的损失框架

Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling

Hakan Inan, Khashayar Khosravi, Richard Socher

TL;DR通过将输入嵌入和输出投影矩阵进行绑定，利用更多信息和减小可训练变量数量，提出了一种提高自然语言模型学习效率的新型理论框架，并在Penn Tree Bank数据集上实现了最先进的性能。

Abstract

recurrent neural networks have been very successful at predicting sequences of words in tasks such as language modeling. However, all such models are based on the conventional classification framework, where mode

发现论文，激发创造

门控字、词循环语言模型

本研究提出一种基于长短时记忆（LSTM）单元的循环神经网络语言模型（RNN-LM），有效地利用字符级和单词级输入，在预测英语文本中的下一个单词方面表现优异。

Jun, 2016

利用辅助预测任务进行句子嵌入的细粒度分析

通过对句子结构的预测任务来评估句子嵌入向量的表现，探讨了句子嵌入方法的相对优劣和向量维度对嵌入效果的影响。

Aug, 2016

通过稀疏词表示压缩神经语言模型

本文提出使用稀疏单词表示来压缩神经语言模型的参数量，以减少计算资源需求并提高性能表现。

Oct, 2016

LightRNN: 记忆和计算高效的循环神经网络

提出了一种新的RNN算法，使用2-Component共享嵌入表示单词，并成功地将其应用于语言建模任务，大大减少了模型大小和训练时间。

Oct, 2016

判别式声学词嵌入: 循环神经网络方法

本研究基于递归神经网络 (RNN) 提出了新的区分性嵌入模型，探讨了不同的训练损失，通过单词区分任务的评估发现，相比以往的模型，分类器和Siamese RNNs 都有所改进，其中 Siamese RNNs 的表现更为优异，同时也对嵌入模型和网络结构等变量进行了分析。

Nov, 2016

Character-Word LSTM 语言模型

使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Apr, 2017

多尺度下神经语言建模分析

本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Mar, 2018

基于压缩的循环神经网络用于高效语言建模

本文考虑了针对循环神经网络的多种压缩技术，特别关注大词汇量带来的高维输出问题，探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法，以及大小、适用性和困惑度的取舍，最终提出一种压缩循环神经网络的通用流程，并使用Penn Treebank数据集展示了矩阵分解技术在速度和压缩-困惑度平衡方面的最佳结果。

Feb, 2019

基于上位词类别预测的更好语言模型

通过将具有相同WordNet超类的单词映射到同一类中，并逐渐从预测类逐步训练为预测单词，我们在两个数据集上证明了该课程学习策略能够显著提高困惑度而不影响罕见词性能。

Mar, 2022

语言模型实现简单的Word2Vec风格的向量算术

本文研究了语言模型在上下文学习中的机制和解决问题的策略，发现虽然它们规模巨大和复杂，但其实有时候它们会利用简单向量算术的机制编码抽象关系，并且利用前馈网络的简单线性更新算法来完成各种任务，在一定程度上具有可解释性。

May, 2023