Aug, 2016
视频字幕生成的帧和片段级特征及候选池评估
Frame- and Segment-Level Features and Candidate Pool Evaluation for
Video Caption Generation
TL;DR本研究以编码器-解码器结构为基础,利用不同的视频特征训练了两个分别负责对象和动作信息的输入子域的模型,并采用一个评估模型从这些专业模型生成的候选语句中选择最佳的视频简述,相较于单一模型,该方法更适用于视频简述任务并在MSR视频语言挑战中获得了最佳人工评价的评级和自动评估度量指标的第二名。