Oct, 2023

基于编码器 - 解码器的长短期记忆(LSTM)视频字幕模型

TL;DR本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法,并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性,即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。