语言建模的显式词语密度估计
提出了一种名为神经格栅语言模型的新的语言建模方法,该方法在多个层次上具有信息预测和调节的能力,并通过对可能路径的格栅进行边际化以计算序列概率或优化参数。实验证明,使用多义词嵌入的英语神经格栅语言模型能够将困惑度相对于单词层面基线提高 9.95%,而处理多字符标记的中文模型能够将困惑度相对于字符层面基线提高 20.94%。
Mar, 2018
本文将语言模型制定为矩阵分解问题,证明了基于 Softmax 的模型(包括大多数神经语言模型)的表达能力受到 Softmax 瓶颈的限制,指出在实践中,带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题,并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果,分别达到了 47.69 和 40.68 的困惑度。而且,该方法也在大规模的 1B Word 数据集上表现出色,在困惑度上优于基线 5.6 个点以上。
Nov, 2017
介绍了一种使用 DropConnect 和 NT-ASGD 等方法进行 LSTM 正则化优化的模型,在 Penn Treebank 和 WikiText-2 数据集上取得了最佳的困惑度表现,并探索了神经缓存对模型性能的影响。
Aug, 2017
提出一种新型深度神经网络模型 —— 连续深度模型,其采用了一个神经网络来参数化隐藏状态的导数,并利用黑箱微分方程求解器计算网络输出,使其具有内存成本不变、能够为每个输入自适应地选择评估策略并能显式进行精度 / 速度权衡等特点。研究者进一步证明了通过此模型可以构造出连续正则化流模型,能够通过最大似然进行训练,而不需要对数据维度进行分区或排序,并展示了如何在较大模型内部向任何 ODE 求解器进行可扩展地反向传播,从而实现 ODE 的端到端训练。
Jun, 2018
本研究系统比较了代表性的方法来表示和训练大词汇下的神经网络语言模型,包括 softmax、层级 softmax、自归一化等方法,并在三个流行的基准数据集上评估了每种方法在罕见词汇、速度 / 精度平衡以及与 Kneser-Ney 模型之间的互补性方面的表现。
Dec, 2015
本研究通过定义词汇表上的一组概率分布,动态地计算这些分布上的混合权重,演示如何将基于计数的 n-gram 模型与神经 LM 结合在单个模型框架中,从而创建新颖的混合模型,并证明这些方法的优势。
Jun, 2016
使用具有缓存机制的分层 LSTM 语言模型在多种语言维基百科文章上进行开放词汇量语言建模,通过字符级别的生成实现不同语言之间的数据共享,进而可以有效解决固定词汇量模型中常见的新词问题。
Apr, 2017
此研究提出了一种新颖的方法,利用神经常微分方程(Neural ODEs)揭示大型语言模型(LLMs)中输入和输出之间错综复杂的关系,并采用稳健控制来微调输出以满足预定义的标准。该方法的核心是将 LLM 的输入和输出转换为低维的潜在空间,从而便于详细研究 LLM 内的信息处理路径。神经常微分方程在这一研究中发挥关键作用,提供了一个动态模型,捕捉了 LLM 中数据的连续演化。此外,稳健控制机制被应用于策略性地调整模型的输出,确保其不仅保持高质量和可靠性,还符合特定的性能标准。神经常微分方程和稳健控制的融合在 LLM 可解释性方面代表了重大进展,提供了一个综合框架,阐明了这些复杂模型以前不透明的机制。我们的实证结果验证了这种整合方法的有效性,为可解释 AI 领域做出了重大贡献,将先进的机器学习技术与对 AI 输出的透明度和控制的重要需求相结合。
Jun, 2024
该研究旨在生成具有多样情感的上下文感知语言,提出了一种受计算机视觉启发的调制层归一化技术,该技术可使我们利用大规模语言模型进行情感响应生成,并在 MojiTalk 数据集上进行自动和人工评估,其结果优于基础方法,同时保持多样性,流畅性和连贯性。即使只使用 10%的可用训练数据,该方法也能获得竞争性能。
Aug, 2021
本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点,提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层,从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。
Apr, 2021