ACLApr, 2018

观看、倾听和描述:全局和局部对齐的跨模态关注力用于视频字幕生成

TL;DR提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态,在视频字幕任务中, 首次验证了深度音频特征的卓越性能,该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。