指针哨兵混合模型

Sep, 2016

Pointer Sentinel Mixture Models

Stephen Merity, Caiming Xiong, James Bradbury, Richard Socher

TL;DR本论文介绍了神经序列模型中的指针标志混合结构，其在语言建模领域取得了最先进的性能，并针对更现实的词汇和更大的语料库引入了可用的 WikiText 语料库。

Abstract

Recent neural network sequence models with softmax classifiers have achieved their best language modeling performance only with very large hidden states and large vocabularies. Even then they struggle to predict

neural network sequence models language modeling pointer sentinel mixture architecture lstm model wikitext corpus

发现论文，激发创造

自适应半参数语言模型

该研究提出了一种结合大型参数神经网络和非参数周期性记忆组件的语言模型，通过缓存本地隐藏状态和检索一组最近的邻居标记来使用扩展的短期上下文和全局长期记忆，并设计门控函数来自适应地组合多个信息源来做出预测。

Feb, 2021

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

再探类指针网络架构以有效改善下一个单词的分布，摘要真实性及其他方面

本研究发现传统的语言模型中的 Softmax 层有瓶颈，使用 Pointer Networks 可以更高效地预测下一个单词的概率分布，并提出了多种简化 Pointer Networks 的方法，实验表明在 GPT-2 中应用这些方法可以显著提升摘要生成性能。

May, 2023

使用稀疏指针网络学习 Python 代码建议

本论文介绍一种神经语言模型，采用稀疏指针网络，以捕捉非常长的依赖关系，旨在提高 IDE 的代码建议系统的准确性，研究结果表明该模型相对于 LSTM 基线的代码建议准确率提高了 5 个百分点，得益于其 13 倍更准确的标识符预测功能。

Nov, 2016

神经语言模型中近似短期记忆的特征化

该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词，并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序，而 LSTM 模型则更加侧重于先前单词的语义要点，以及其与列表中其他单词的关系。

Oct, 2022

Mogrifier LSTM

本文介绍了长短时记忆网络的互相门机制，以实现更好地建模自然语言处理中上下文之间的交互，并通过实验在多个数据集上证明了其在语言建模上较传统模型具有更好的泛化能力和性能表现。

Sep, 2019

状态汤：上下文技能学习、检索和混合

探索利用状态序列模型的内部状态作为任务向量进行快速模型合并的方法，并通过简单的线性状态插值方法提高下一个标记的困惑度和上下文学习任务性能。

Jun, 2024

微小的改进引发韧性：朝着高效的前缀模型抵御 LLM 红队行动

通过介绍基于 LLM 的哨兵模型，该论文提出一种即插即用的前缀模块，通过添加少量的 (<30) 令牌有效地减少目标 LLM 输出中的有毒内容，克服参数效率和模型可访问性的限制。我们采用交错训练方案，使用近端策略优化 (PPO) 来动态优化红队和哨兵模型，并结合通过多智能体集中批判者启发的值头共享机制来管理代理之间的复杂相互作用。我们在文本到文本和文本到图像的广泛实验中证明了我们方法的有效性，即使处理像 Llama-2、GPT-3.5 和 Stable-Diffusion 这样的大型模型也能降低有毒输出，突显了我们框架在提升各种应用程序的安全性和稳健性方面的潜力。

May, 2024

指向未知单词

本文针对 NLP 系统中稀有词和未知词的问题，提出了一种使用注意力机制的神经网络模型。该模型使用两个 softmax 层来预测条件语言模型中的下一个词，同时根据上下文情况来自适应地选择适合的 softmax 层。在 Europarl 英法平行语料和 Gigaword 数据集上，通过使用该模型进行神经机器翻译和文本摘要，我们观察到了实验结果的提高。

Mar, 2016

轻量级自适应神经网络与 N-gram 语言模型混合

本文介绍了一种通过小型神经网络来预测混合模型权重的方法，以提高神经语言模型和 n 元语法模型的性能。实验结果表明，该方法能显著提高 One Billion Word benchmark 上的性能。

Apr, 2018