N-Grammer: 使用潜在 n-gram 扩充 Transformer

Jul, 2022

N-Grammer: 使用潜在 n-gram 扩充 Transformer

N-Grammer: Augmenting Transformers with latent n-grams

Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao...

TL;DR本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Abstract

transformer models have recently emerged as one of the foundational models in natural language processing, and as a byproduct, there is significant recent interest and investment in scaling these models. However,

transformer models natural language processing transformer architecture n-grams language modeling

发现论文，激发创造

Transformer 可以表示 $n$-gram 语言模型

该研究论文探讨了 Transformer 语言模型与 n-gram 语言模型之间的关系，通过分析机器学习模型的概率表示能力，提供了对 Transformer 语言模型代表概率分布的机制的初步认识。

Apr, 2024

$N$-gram 回归：用 $n$-gram 语言模型进行神经文本生成的残差学习

本文提出采用 $n$-gram 语言模型与神经网络语言模型的结合来提升自然语言处理任务性能，并在三项典型任务的实验中表明，我们的方法始终优于单独使用神经网络语言模型。同时，我们还展示了该方法通过简单地切换到特定领域的 $n$-gram 模型即可进行有效的领域自适应。

Oct, 2022

Infini-gram：扩展至万亿标记的无界 n-gram 语言模型

n-gram 语言模型在神经网络大型语言模型时代仍然具有重要意义，本研究展示了其在文本分析和改进神经网络大型语言模型中的价值，并从两个方面对 n-gram 模型进行现代化改进：在与神经网络大型语言模型相同的数据规模下进行训练，建立最大的 n-gram 模型，以及允许 n 的大小任意增加，并引入具备毫秒级延迟的 suffix 数组驱动引擎 infini-gram 来计算无限阶的 n-gram 概率。

Jan, 2024

基于自适应 n-gram 嵌入的增强 Transformer 用于多语言场景文本识别

介绍了一种用于多语种场景文本识别的增强 Transformer 架构，名为 TANGER，该架构采用 n-grams 嵌入和跨语言纠正技术，并通过四个基准数据集的广泛比较研究以及从印度尼西亚旅游场景中收集的一个包含印度尼西亚语、英语和中文的新多语种场景文本数据集进行实验，实验结果表明 TANGER 具有更好的性能。

Feb, 2023

Transformer 相遇神经算法推理者

使用 Transformer 的语言理解和图神经网络（GNN）的鲁棒性，我们提出了一种新的方法，将 Transformer 与基于神经算法推理器（NARs）的图算法进行结合，以解决算法推理方面的问题。经过评估，在算法推理方面，我们的结果表明 TransNAR 模型在 CLRS-Text 上相较于仅使用 Transformer 模型，能够获得显著的提升。

Jun, 2024

Transformer 语法：在规模上增强具有语法归纳偏见的转换语言模型

Transformer Grammars 是一种新颖的语言模型，通过特殊的注意力掩码和确定性转换实现递归句法组合，提高了句子级别和句法敏感的语言建模性能，在长文本建模中，递归的句法组合对表示整个句子向量造成了瓶颈并影响了逼近度，表明一个独立于组合句法表示的不同类型的记忆机制在当前成功的模型中发挥了重要作用。

Mar, 2022

将省略的 n-gram 和修改的 Kneser-Ney 平滑组合的广义语言模型

介绍了一种基于跳跃 n-gram 模型的语言模型建立方法，采用修正 Kneser-Ney 平滑，可以广义化语言模型，效果显著，尤其能处理计算数据稀疏情况。

Apr, 2014

语言建模的一点进展

在语言建模领域中，我们探寻了多种技术的变体或极限，验证单一技术与多种技术的相互作用，将所有技术组合应用在一起，较标准的 Katz 平滑 3 元语言建模方法，我们取得了 38% 至 50% 的困惑度减少，Word 错误率降低 8.9%。

Aug, 2001

使用循环神经网络估计 N 元语言模型

通过使用 RNN 模型进行 $n$-gram 语言模型平滑来研究其有效的记忆深度，实验结果表明，在保持句子独立性假设的前提下，使用 dropout 技术的 LSTM cell 在编码 $n$-gram 状态方面的表现最佳，且在 $n=9$ 时，LSTM $n$-gram 与 LSTM LM 表现相当，同时在 $n=13$ 时略优于其，该方法可以提高模型的性能，特别适用于模拟短格式文本如语音搜索 / 查询语言模型。

Mar, 2017

轻量级自适应神经网络与 N-gram 语言模型混合

本文介绍了一种通过小型神经网络来预测混合模型权重的方法，以提高神经语言模型和 n 元语法模型的性能。实验结果表明，该方法能显著提高 One Billion Word benchmark 上的性能。

Apr, 2018