Jul, 2020

视频中时序句子定位和事件字幕生成的学习模态交互

TL;DR通过跨模态交互学习,以更好地利用视频中每组模态之间的互补信息来提高事件字幕生成和时间句子定位任务的性能,从而在四个标准基准数据集上取得了最先进的性能。