关键词self-supervised objectives
搜索结果 - 10
- 高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类
提出了一种名为 AVT 的新颖的音视频识别方法,利用视频 Transformer 在时空上的表示来提高动作识别的准确性,并通过音视频瓶颈 Transformer 减少跨模态复杂度,融合自监督目标,而进一步引入一个屏蔽音频片段损失,以学习 A - 多模态注意力融合用于提升语音识别和音频事件分类
使用自我监督目标进行大型基础模型的训练,然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合(MAM)方法,通过零 - shot 范式,实现了从高资源模态(文本和图像)的注意力矩阵到资源受限领域(语音和音频)的知识转移。M - 可学习的体积医学图像分割权重初始化
提出了一种可学习的权重初始化方法,它利用可用的医学训练数据通过自监督目标有效地学习上下文和结构线索,易于集成到任何混合模型中,并且不需要外部训练数据,试验表明,这种方法在多器官和肺癌分割任务上具有前沿的分割性能。
- 具有一般监督信号的具身代理
利用 Scene Graph Contrastive (SGC) loss 来训练具有实际效果的体验式人工智能代理,其利用神经体系结构和自我监督目标以提高表现学习,即时不利于任务相关信息的编码。这种方法广泛适用且简单易行,可以鼓励代表的编码 - EMNLPFineD-Eval: 细颗粒自动对话级别评估
本文介绍了一种基于多维度的对话级度量方法,由三个子度量组成,对每个子度量使用新颖的自监督方法进行训练,通过指标组合和多任务学习的方式,综合度量显著优于单一子度量。
- 编码增强的序列到序列预训练模型用于语言理解与生成
本文研究了现有的 seq2seq 预训练模型中存在的问题,提出了一种基于编码器自监督学习的预训练策略 E2S2,并通过在多个自然语言理解和生成任务中的实验证明了其可行性及有效性。
- ICLR协变量偏移的最优表示
介绍了一种简单的变分目标,其极值恰好是所有表示集合,其风险最小化器保证对任何保留贝叶斯预测者的分布转移都是强健的,例如,协变量转移。该方法包含了两个方面,第一个方面是表示必须保持判别,即某些预测者必须能够同时使源风险和目标风险最小化;第二个 - 大规模自监督语音表征学习用于自动化说话者验证
使用预训练模型学习到的语音表示作为输入特征,采用可学习权重的平均表示方法,在 Voxceleb 数据集上进行了自我监督训练,实现了自动说话人验证,在三个官方测试中分别取得了 0.537%、0.569%和 1.180%的等误差率(EER),超 - 神经机器翻译的 Token Drop 机制
通过引入 Token Drop 以及两种自监督目标,提升神经机器翻译的泛化能力和避免过拟合,实验结果表明该方法在中英和英罗马尼亚基准数据集上表现显著优于强 Transformer 基线模型。
- ICLR自我预测表示法的数据有效强化学习
本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法,使用深度强化学习方法,并结合自监督目标和对视觉输入和与环境的交互结构的预测,提高了代理器的学习效率,并在 Atari 游戏中显著提高了