多任务多模态自监督学习的面部表情识别
本文设计了一个基于自监督学习策略的标签生成模块,通过联合训练多模态和单模态任务来分别学习一致性和差异,采用权重调整策略来平衡不同子任务的学习进度,验证了自动生成的单模态监督标签的可靠性和稳定性,超过了现有的最先进方法和人工注释的单模态标签。
Feb, 2021
本文提出了一种基于无监督特征学习且包括对比损失的多模式情感识别方法,该方法可以减少资料标注费用、提高精确度并且无需大批量样本。相关实验数据表明,本方法比许多基线方法和无监督学习方法在多模式情感识别上表现更好,甚至超越了当前某些有监督方法的表现。
Jul, 2022
本文提出了一个自监督训练框架,通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性,进而学习一个共同的多模态嵌入空间,并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.
Apr, 2021
该论文提出了一种利用多个成像模式的新型自监督方法,设计了一个多模式拼图任务以促进多种图像模式的特征表征,提出了一种利用跨模态生成技术进行多模态数据增强的方法,实验表明该方法能够提高数据效率和语义表征,广泛应用于四种不同的下游任务,并取得了领先的成果。
Dec, 2019
本研究探究了面部重建的视觉自监督方法辅助音频表示学习,提出了适用于语音表示学习的仅音频的自监督方法,比较了多任务的视听自监督与单一方式的自监督方法,发现视听自监督对于学习在噪声环境下更具有鲁棒性的特征更有益。同时,本研究发现自监督学习可以胜过全监督学习并防止过拟合,通过情感识别、自然语言识别等测试表明该方法成功提高了语音特征学习的效果。
May, 2020
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
Jun, 2020
提出了一种无监督多模态语言表示提取方法,利用卷积自编码器将单词级对齐的多模态序列映射到 2-D 矩阵中,证明其在情感分析和情绪识别领域可以达到接近最先进性能的结果。
Oct, 2021
本文提出了一种多模态情感分析框架 EffMulti,采用三种不同的多模态潜在表示来捕捉不同视角下的复杂情感交互,并提出了一种模态 - 语义层次融合方法来融合这些表示,实验结果表明,EffMulti 在进行情感分析方面表现极佳。
Dec, 2022
本篇论文提出了一种使用多模式信息联合学习人脸表征的深度学习框架,该框架包括一组卷积神经网络和三层堆叠自动编码器,使用公开可用的数据集训练,取得了超过 99%的人脸识别率。
Sep, 2015