关键词multi-modal summarization
搜索结果 - 4
- 视频探索的因果关系视频摘要器
本文提出了基于因果关系的视频摘要器(CVS),它采用了概率编码器和概率解码器来有效地捕捉视频和查询之间的交互信息,从而提高了多模态视频摘要的精度。与现有的方法相比,CVS 的准确度提高了 5.4%,F 1 - 得分提高了 4.92%。
- 多模式摘要的段落级视觉 - 语言语义对齐建模
本文提出了 ViL-Sum 来同时建模段落级别的视觉 - 语言语义对齐和多模式摘要,通过使用联合多模式编码器的两个任务,图像重新排列和图像选择,ViL-Sum 可以捕获模态间的相互作用,在最终摘要中选择与段落相关的摘要图像。实验结果表明,我 - 多模态摘要综述
本文综述了多模式自动摘要 (MMS) 领域内的现有研究,包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外,我们的工作还讨论了该领域中当前的挑战和未来方向。
- 包含视频的文档的多模式摘要
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,