学习唤醒-睡眠循环注意力模型
通过对梯度的多次估计,改进比重加权的wake-sleep算法可有效训练Helmholtz machines和deep belief networks模型,同时NADE作为一种更强大的模型代替sigmoidal belief network可以更好地估计后验分布。
Jun, 2014
研究比较深度卷积网络和带有循环结构的深度卷积神经网络的效果,针对视频识别、图像描述、检索以及视频叙事方面的问题,开发出一种新颖的循环卷积架构,该架构可以训练端到端,可以同时学习时间动态和卷积感知表示,并具有学习长期依赖性的能力。实验结果证明,循环卷积模型在识别或生成方面与现有的模型相比具有明显的优势。
Nov, 2014
该论文介绍了一种基于注意力机制的模型,通过机器翻译和物体检测实现图像内容的自动描述,通过最大化变分下界确定性训练该模型,并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。
Feb, 2015
本文提出了一种基于生成循环神经网络的图像字幕方法,它可以利用一个显著性预测模型在生成字幕时集中于图像不同的部分,并通过大规模数据集上的广泛定量和定性实验证明该模型相比不带显著性和不同的最先进的显著性与字幕结合方法具有卓越的性能。
Jun, 2017
本文研究用于生成模型的随机控制流模型的学习问题,提出了一种基于重加权的wake-sleep算法,证明在学习SCFMs方面胜过其他现有的方法,是竞争力和优选的选择。
May, 2018
该综述旨在提供一种全面的神经注意力模型开发和应用的现状和趋势的分析,系统回顾了数百种注意力模型的体系结构和应用,特别关注于卷积网络、循环网络和生成模型,描述了其在不同应用领域和神经网络可解释性上的影响。
Mar, 2021
本文提出贝叶斯关注置信网络并将其应用于多种任务中,相较于确定性和其他基于stochastic attention的模型,其在准确性、不确定性估计等指标上均更优。同时,这种方法还可用于调整其他基于deterministic attention的预训练模型,展现了广泛的应用潜力。
Jun, 2021
本文阐述了注意力机制在深度学习的应用,提出缺乏对于注意力技术的综合研究和分类的问题,描述了50种注意力技术分类的细节,并建议未来深度学习对注意力机制的研究方向。
Apr, 2022
利用重新参数化的技术,我们展示了一个小型卷积模型在推断过程中提供了低延迟和高准确性的权衡,且具有较低的内存占用和计算成本。我们的重新参数化模型在准确性方面提高了43%,而与单分支卷积模型相比具有相同的运行时间。与复杂结构如BC-ResNet相比,RepCNN模型的内存使用减少了2倍,运行时间快了10倍。
Jun, 2024