人类情感中学习标签之间的关系
利用 Multi-Task Contrastive Learning for Affect Representation(MT-CLAR)结合深度学习技术,通过对表情图片的对比学习来推断表情表达的相似性,以及两个面部表情在情感价值和唤起水平上的差异,并扩展该框架用于自动化视频标注。
Aug, 2023
本研究提出一种弱监督学习方法,通过利用图像标题和对象边界框注释作为唯一的监督信息来预测图像中各种实体之间的关系。我们使用自上而下的关注机制将标题中的实体对齐到图像中的对象,然后利用标题的语法结构将关系对齐。我们使用这些对齐来训练关系分类网络,从而获得基于现实的字幕和稠密的关系。我们在 Visual Genome 数据集上展示了我们模型的有效性,其关系的召回率达到 15%(@50)和 25%(@100)。我们还展示了该模型成功预测了与相应字幕中不存在的关系。
Dec, 2019
本文提出了一种训练方案,可以学习独立于不同标签格式、自然语言甚至不同模型架构的情感的共享潜在表示,通过实验表明,该方法能够实现所需的互操作性,而不降低预测准确率。
Dec, 2020
在交通场景中预测人类轨迹对于混合或完全自主系统的安全至关重要。人类未来轨迹由社交互动和随机目标驱动,因此可靠的预测需要捕捉这两个刺激。我们提出了一种基于区域关系学习的模型,通过模拟关联总体态势下人类的区域动态,即人流密度变化,来模拟社交互动。此外,我们还利用条件变分自编码器实现多目标估计和多样化未来预测。通过对潜在分布进行变分推断,该模型在测试数据中可以可靠地捕捉到随机行为。将多目标估计和区域关系学习集成到预测框架中,有效地模拟了社交互动和随机目标这两个刺激。我们在 ETH-UCY 数据集和 Stanford Drone 数据集上评估了我们的框架,结果显示在 ADE/FDE 指标上,相较于现有模型,在 SDD 数据集上我们的模型分别超过了 27.61%/18.20%。
Apr, 2024
本研究旨在探究情绪与情感的相互作用对情绪计算的影响,通过利用经过度量学习的变化情绪标签预测视频片段的情绪变化,并比较单一情绪标签与整体标签的模型预测效果,结果表明通过整合情感变化信息进行训练,情绪预测模型能够实现更好的效果。
Jun, 2023
使用卷积神经网络统计学习从互信息选择的最小冗余最大相关性的表情特征进行回归,可以高于传统的音频或视频特征,实时预测情感状态的准确度。
Aug, 2017
该论文提出了一种新的学习人际互动的方法,利用单张静态图片中的自由文本,实现对人际互动在各种情况和关系中的建模。作者使用了基于大型语言模型生成的合成标题数据的知识蒸馏方法,成功训练出一种 “理解” 图像中人际互动的字幕模型,达到了精确、语义匹配、事实准确的预测模型。该方法在人际互动理解这一任务上,比目前最先进的图像字幕生成和情境识别模型表现更优。
Apr, 2023
本文介绍了一种基于视觉信号的深度神经网络自动识别情感的方法,提出了适用于情感识别算法训练和评估的 Aff-Wild Benchmark,以及使用这一数据库 achieving best performances both for dimensional, as well as categorical emotion recognition,成为情感识别领域的最好表现之一。
Apr, 2018
本文提出了一种增强的端到端框架,通过学习其他辅助任务和关注机制来获取更加稳健和更好地共享表示,以缓解传统系统中由于有限训练数据而导致的过拟合问题,提高语音情感识别性能。
Mar, 2019