Transformer 可以表示 $n$-gram 语言模型
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022
本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力,并探讨了其中各组件的作用,发现相比于 LSTMs,在某些行为建模上有一定优势,同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。
Sep, 2020
通过简洁明了的数学框架和清晰的图示,详细解释了神经语言模型的主要类型,包括 BERT 和 GPT2,同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。
Jan, 2024
通过将递归神经网络语言模型连接到概率有限状态自动机,我们重新审视了递归神经网络语言模型的表征能力,并证明具有线性边界精度的递归神经网络语言模型可以表示任意的正则语言模型。
May, 2024
研究信息在解码器单独的 Transformer 模型中的传播,发现了表示崩溃现象和对特定标记的敏感性丧失,并提供了简单的解决方案。
Jun, 2024
本文提出采用 $n$-gram 语言模型与神经网络语言模型的结合来提升自然语言处理任务性能,并在三项典型任务的实验中表明,我们的方法始终优于单独使用神经网络语言模型。同时,我们还展示了该方法通过简单地切换到特定领域的 $n$-gram 模型即可进行有效的领域自适应。
Oct, 2022
n-gram 语言模型在神经网络大型语言模型时代仍然具有重要意义,本研究展示了其在文本分析和改进神经网络大型语言模型中的价值,并从两个方面对 n-gram 模型进行现代化改进:在与神经网络大型语言模型相同的数据规模下进行训练,建立最大的 n-gram 模型,以及允许 n 的大小任意增加,并引入具备毫秒级延迟的 suffix 数组驱动引擎 infini-gram 来计算无限阶的 n-gram 概率。
Jan, 2024
调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
基于 Transformer 架构的大型语言模型(LLMs)的近期进展在自然语言处理(NLP)应用领域展示了显著的拓宽范围,超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用,重点关注 GPT 系列,对人工智能(AI)驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究,同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展,Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究,突出了其多功能性和在实际应用领域中转型的潜力,从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。
Mar, 2024