- 语言模型对时间序列预测是否真的有用?
在大型语言模型中,尤其是在时间序列预测方面,进行了一系列消融研究,发现移除语言模型组件或用基本的注意力层替换并不降低预测结果,甚至在大多数情况下结果有所提升。此外,预训练的语言模型并不比从头开始训练的模型更好,不能准确表示时间序列中的顺序依 - 利用自相似性作为注意力机制生成具有结构的音乐
我们提出了一种注意力层的方法,使用用户提供的自相似矩阵来在生成音乐时添加模板结构,并通过与没有注意力机制的模型进行比较,证明了该方法显著提高了网络的特定结构复制能力,以及在未见测试集上的性能。
- ARNN:用于识别癫痫发作的多通道脑电信号的注意力循环神经网络
我们提出了一种注意力循环神经网络 (ARNN),它在序列上循环应用注意力层,并具有与序列长度线性复杂度的特点。该模型在多通道脑电图信号上操作,利用并行计算。我们的架构受注意力层和长短期记忆 (LSTM) 单元的启发,它使用长短样式门进行扩展 - 通过基于注意力的双向递归神经网络从 Reddit 帖子检测阿片类药物用户
通过对 Reddit 上的用户帖子进行收集和分析,结合关注度双向长短期记忆模型,该研究利用机器学习技术成功识别出了滥用阿片类药物的用户,并通过关注层提取了关键词,从而更好地理解该算法如何区分药物使用者和非药物使用者。
- 水蛇效应:语言模型计算中的紧急自修
我们使用因果分析研究语言模型计算的内部结构,并展示了两种模式:(1) 一种适应性计算形式,其中对语言模型的一个注意力层进行去除会导致另一个层进行补偿(我们将其称为 Hydra 效应),以及 (2) 后期 MLP 层的反平衡功能,用于降低最大 - 共识自适应 RANSAC
通过引入注意机制和一步变压器,我们提出了一种新的 RANSAC 框架,其学习通过考虑迄今为止观察到的残差来探索参数空间,并在实验中表现出了显著的性能提升和良好的泛化性能。
- 基于注意力机制的深度神经网络关键帧提取
本文提出了一种基于深度自动编码器模型和注意力层的关键帧检测方法,该方法首先使用自动编码器的编码器部分从视频帧中提取特征,并使用 K-means 聚类算法对这些特征和相似帧进行分割,然后从每个簇中选择与簇中心最接近的帧作为关键帧,该方法在 T - 基于注意力机制的时空图卷积循环神经网络用于交通预测
本文提出了一种新的空间 - 时间神经网络框架 ASTGCRN,其中包括图卷积循环模块 GCRN 和全局注意力模块,以有效地对运输数据进行复杂的时空依赖性和相关性建模,并采用三个独立模块的时间关注层来实现对全局时间依赖性的有效提取。实验结果表 - 你真的需要注意力吗?仅使用一堆前馈层就可以在 ImageNet 上惊人地表现
通过在 Vision Transformer 中替换 Attention 层为基于 Patch 维度的前馈网络,本文发现除 Attention 层外,Transformer 中的其他方面,例如 patch embedding,可能更加关键。 - CVPR基于时空注意力的场景点云流估计(FESTA)
本文介绍了一种使用带有空间和时间注意力层的方法来提取点云中的 3D 场景流信息,该方法名为 FESTA,相比其他基于场景流估算的新方法,在场景流估算准确度和性能方面有了显著的提升。
- ConvTransformer: 用于视频帧合成的卷积变换器网络
本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构,通过注意力机制学习序列数据之间的依赖关系,用于视频帧合成,相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。
- 跨 NLP 任务的注意力可解释性
本文旨在通过一系列的 NLP 任务,人工评估实验等方式,全面解释神经网络模型中的注意力机制的可解释性,并证明了注意力的可解释性验证了两种观点。
- Cycle-IR: 深度循环图像重定向
本文介绍了一种名为 Cycle-IR 的单个深度模型实现图像重定向的方法,其中包括反向映射、循环一致性损失和一个名为 IRNet 的简单而有效的网络,该网络包含一个空间和通道注意力层,能够有效地区分输入图像的视觉重要区域,可以直接生成任意大 - 多元化图像补全
本论文提出了一种能够生成多个不同、合理且高质量的图像修复结果的方法,其中包括条件变分自编码器 (CVAE)、生成对抗网络 (GAN)、新型的短 + 长期注意力层,它们能够有效地提高修复结果的多样性和外观连贯性,实验表明该方法能够在不同的数据 - 定位感知的自注意力与相对位置编码在槽填充中的应用
本文提出如何在关系抽取任务中使用自注意力和相对位置编码。使用一个位置感知的注意力层,利用相对位置编码使每个单词考虑其左右上下文,仅使用注意力机制,在 TACRED 数据集上表现显著提升。
- 基于注意力机制的 NMT 词汇选择
提出一种使用 NMT 训练过程中直接从 attention layer 中学习候选列表的新方法,该方法高度优化当前 NMT 模型的候选列表,无须对候选池进行外部计算并实现了在不降低翻译质量的情况下显著提高解码速度。