使用循环加权平均的序列数据机器学习
本文提出了基于贝叶斯学习的算法,通过引入随机梯度 Markov Chain Monte Carlo 的思想对 RNN 模型进行权重不确定性学习,从而提高模型在各个任务上的表现。
Nov, 2016
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
本文提出了一种名为 Receptance Weighted Key Value(RWKV)的新型模型体系结构,它将 Transformer 的并行训练与 RNN 的高效推理相结合,并利用了线性注意机制,使模型既可以被阐释为 Transformer,也可以被阐释为 RNN,从而在训练期间并行计算,并在推理期间保持计算和记忆的复杂度恒定,从而成为第一个可扩展到数十亿参数的非 Transformer 架构,实验表明,RWKV 的表现与同样大小的 Transformer 相当,在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。
May, 2023
本研究提出了一种改进的循环单元,使其能够在学习时不需要事先了解序列的时间结构就能够灵活地调整每个时间步骤的计算量,从而提高模型的容量和性能,实验证明该方法能够在评估任务中取得更好的性能表现并减少计算量。
Nov, 2016
本文提出一种名为 Recurrent Attention Unit 的循环神经网络模型,它将注意机制融入了 GRU 的内部结构中并通过增加 attention gate 提高了 GRU 对于长期记忆的能力,对于序列数据能够通过自适应选择序列的区域或位置并在学习过程中更加关注选定的区域,实验结果表明 RAU 在图像分类、情感分类和语言建模等方面均优于 GRU 和其他基线方法。
Oct, 2018
本文介绍了简单而强大的时钟 RNN 的修改方法,该方法将隐藏层分成单独的模块,在其自己的时间粒度上处理输入,并且在测试的任务中改善了性能,速度快于标准的 RNN 模型,优于 RNN 和 LSTM 网络,出色地完成了声音信号生成和 TIMIT 口语识别任务。
Feb, 2014
本文提出了一种基于加权有限自动机的自然语言任务的提取和解释框架来解决现有方法在可伸缩性或精度方面的局限性,同时引入了两种数据增强策略来跟踪循环神经网络的动态行为,并通过 Transition Matrix Embeddings 的基于任务的解释方法在预训练和敌对示例生成等应用中表现出更好的效果。
Jun, 2023
该论文演示了使用循环神经网络(RNN)作为量子哈密顿量的近似基态变分波函数来表示多体波函数,通过优化变分参数使用随机方法实现。并利用其自回归性质作为有效的物理估计器来计算各种相关物理量。
Feb, 2020
本文介绍了一种新型的神经序列建模方法 - 准循环神经网络(QRNNs),通过卷积层与最小化的循环池化函数的交替使用,QRNNs 可以在高度并行的情况下完成对序列数据的建模,并且在语言建模、情感分类和字符级神经机器翻译等任务中显示出比基于 LSTM 的架构更优异的性能。
Nov, 2016