使用自我关注实现可解释的音乐标记
提出了一种使用修改后的相对注意力机制来设计变形金刚神经网络的算法,用于音乐作曲、演奏和生成任务,并在 JSB Chorales 和 Piano-e-Competition 数据集上获得了最先进的结果。
Sep, 2018
本文介绍了多种针对 Self-supervised Audio Transformers 中注意力机制分析的策略,包括解释每种类型的注意力机制的功能、提供可视化工具以了解多头自注意力、重要性排名策略以识别关键注意力,以及注意力精炼技术以提高模型性能。
Jun, 2020
本文提出了一种自我注意力归因方法,通过对 BERT 等模型进行广泛的研究,发现这种方法能够用于识别重要的注意力头,构建注意力树,揭示变压器内的分层交互,以及可用作敌对模式实现非定向攻击。
Apr, 2020
我们提出了一种注意力层的方法,使用用户提供的自相似矩阵来在生成音乐时添加模板结构,并通过与没有注意力机制的模型进行比较,证明了该方法显著提高了网络的特定结构复制能力,以及在未见测试集上的性能。
Jun, 2024
本文提出了一种新颖的增强记忆自注意力机制,用于 Transformer 语音识别中的流式应用,相对于现有的可流式 Transformer 方法,减小了计算量并在 Librispeech 基准测试中实现了超过 15% 的相对误差降低。
May, 2020
我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制,用于估计给定输入符号(标记)序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比,该解释仍然有效。根据此解释,我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲,现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务(自然语言处理的情感分类和推荐)中的 Transformer 结果提供因果解释来演示这种方法。
Oct, 2023
在这项工作中,我们将基于自我关注机制的模型架构 ——Transformer 模型,泛化到图像生成的序列建模问题上,并通过限制自我关注机制只关注局部邻域,显著提高了模型能够实际处理的图像大小,同时在图像生成方面显著优于当前最优秀的状态,提高了 ImageNet 上最佳公布的负对数似然从 3.83 到 3.77,同时还针对大放大倍数进行了图像超分辨率实验。在人类评估研究中,我们发现,我们超分辨率模型生成的图像比先前的最优模型更能欺骗人类观察者。
Feb, 2018
通过本文研究发现,使用简单的自监督预训练音频模型能够实现与复杂的预训练模型相媲美的推理效率,同时采用自注意力模块与卷积模块相结合的语音转换器能够在 ASR 上取得最先进的性能表现,同时使用较低位权重量化技术的神经网络的简单方法,能够提高效率并防止在量化模块之间传播误差。
Nov, 2023
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020