Aug, 2022

跨模态共识扩张上下文整合网络在视频情绪时序定位中的应用

TL;DR本论文提出了一个名为 “视频中的时间情感定位” 的新任务,其旨在检测人类情感并定位其对应的时间边界。当前的工作仅限于裁剪的视频级情感分类,未能定位对应于情感的时间窗口。作者提出了一种新型的扩张上下文集成网络,具有粗细两个流架构,以及跨模态共识学习范例,通过对齐的字幕来获取弱监督学习。经过广泛实验,表明了其方法在情感定位方面的有效性。