从语言和非语言沟通中学习情感表达
通过采用样本级文本描述(即上下文、表情或情感线索的标题)作为自然语言监督,我们提出了一种新颖的视觉 - 语言模型,旨在增强丰富的潜在表示的学习,以进行零样本分类。通过对四个流行的动态情感识别数据集进行模型测试,我们发现与基线方法相比,该方法在零样本视频情感识别方面表现出显著的改进,并在精神健康症状估计等下游任务中取得与人类专家相当或更优的性能。
Oct, 2023
本研究在探索如何利用 CLIP 嵌入空间进行视觉情感分析,通过在 WEBEmo 基准测试上训练 CLIP-E 模型和进行交叉数据集评估,发现 CLIP-E 方法在细粒度分类和一些未经训练数据集上的泛化能力均优于现有模型,这引发了关于设计新基准和评估视觉情感分析的问题,并讨论了是否应该继续设计专门的深度学习模型或者更好地利用 CLIP 等大型视觉 - 语言模型的知识来解决这一任务。
Oct, 2023
本研究调查了预训练的多模态模型 CLIP 在识别抽象视觉艺术所引发的情感方面的认知合理性。我们使用包含带有情感标签和人类注释员提供的文本证明的图像的数据集进行研究。我们对证明进行语言分析,对图像和证明进行零 - shot 情感分类,并应用基于相似度的情感预测,研究颜色 - 情感交互作用。在识别抽象图像和证明的情感方面,CLIP 的准确度相对较低,但高于基准水平,这表明 CLIP 以一种与人类认知过程不太一致的方式解码情感复杂性。此外,我们还探究了图像和证明中的颜色 - 情感交互作用。预期的颜色 - 情感联系(例如,红色与愤怒有关)在图像和通过人类和 CLIP 注释的文本中得到了确认,后者展示出更强的交互作用。我们的结果凸显了连接图像特征和情感时人类处理与机器处理之间的差异。
May, 2024
使用自然语言作为情感提示,并结合大规模语言模型构建的数据集,以及基于 CLIP 的模型实现文本和面部表情的语义对齐,从而实现表情丰富且可控制的面部动画生成。
Aug, 2023
本文提出了一种名为 SpeechCLIP 的新框架,通过图像将语音和文本结合起来,从而改善语音模型的性能,无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型,并通过配对的图像和口头字幕进行对齐,实现了零样本语音 - 文本检索和语音中关联关键字的提取。
Oct, 2022
本文提出了一种基于监督原型对比学习和课程学习的方法,旨在解决情感识别中遇到的不平衡分类问题,其不需要大的批量比对。对应用该方法进行的三项基准测试的结果表明其取得了最佳效果,并且分析实验进一步证明了其有效性。
Oct, 2022
本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法,该方法融合了文字和语音特征,并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。
Sep, 2021
RemoteCLIP 是第一个用于遥感领域的视觉 - 语言基础模型,利用数据扩充和转换方法进行预训练,可用于零样本分类、图像文本检索和物体计数等任务,并在 16 个数据集上均优于基线模型。
Jun, 2023
本研究提出了一种名为 Exp-CLIP 的新方法,通过从大型语言模型(LLMs)中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器,通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间,以此训练投影头进行零样例预测,同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型(LVLMs)的零样例结果。
May, 2024
本文提出了 GEmo-CLAP,一种高效的性别属性增强的 CLAP 模型,用于语音情感识别,在 IEMOCAP 语料库上表现优于 Emo-CLAP 基线和其他先进方法。
Jun, 2023