用户生成视频的标题生成
为优化电商中消费者生成视频的推荐,我们提出了一种端到端的建模方式,包括综合使用消费者生成视频的内容、评论句子和商品属性,并基于图神经网络实现多粒度视频分析和故事线总结。
Jun, 2020
本文提出了一种基于主题导向模型 (TGM) 的视频描述生成模型,同时采用网络爬取的分类标签和无监督话题挖掘模型中的数据驱动话题挖掘来生成面向主题的视频描述。在当前最大的视频字幕数据集 MSR-VTT 上,我们的模型显著超过了 2016 年 MSR 视频到语言挑战赛的获胜表现。
Aug, 2017
本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法,实现丰富内容的视频字幕生成,结果表明该方法不需要显式输入视频级别特征即可提供丰富内容,与最新技术方法相同。
May, 2016
本文介绍了一种名为 Short Video Title Generation (SVTG) 的真实数据集,以及一种应用多模态信息的 Title generation and Cover selection with attention Refinement (TCR) 方法,通过对高质量样本和高相关性帧和文本令牌进行精细化训练,该方法在生成标题和选择封面方面优于现有的各种视频字幕方法,并且可以针对真实短视频选择更好的封面。
Apr, 2023
本研究提出了一种基于序列生成模型和抽取的文本片段的表格标题生成方法,在少于 1 万个示例的训练下超过了现有的方法,接近群众智慧标题的质量,并成为处理表格标题文本生成的新的最佳方法。
Jun, 2018
在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解,我们证明了我们方法的有效性,并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。
Dec, 2023
通过多任务学习模型,结合无监督视频预测和语言蕴涵生成任务,共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示,显著提高视频字幕生成的性能,达到了多个标准数据集的最新水平。
Apr, 2017
通过生成视频常识描述(包括解释动机、影响和描述人物特点)的方法,结合开放式视频常识问答,可以提升通过字幕来理解视频的能力。
Mar, 2020
通过对用户兴趣的主题进行视频描述一直是一个长期目标。为了解决这个问题,我们提出了一种新的视频字幕任务,即面向主题的视频字幕,允许用户通过边界框指定描述的目标。为了支持这个任务,我们基于两个广泛使用的视频字幕数据集 MSVD 和 MSRVTT 构建了两个面向主题的视频字幕数据集,通过为每个字幕中的每个视频注释主题。这些数据集为未来的技术发展铺平了道路。作为第一个尝试,我们评估了四种最先进的通用视频字幕模型,并观察到了较大的性能下降。然后,我们探索了几种策略使它们能够描述所需的目标。实验结果显示出明显的改进,但在这个领域还有很大的探索空间。
Dec, 2023
通过对长视频生成多样的合成标题,使用大型语言模型评估长视频检索系统的能力,并提出轻量级微调方法(基于对不同标题中信息层级的差异进行对比损失学习),在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。
Nov, 2023