Apr, 2024

V2Xum-LLM:跨模态视频摘要与时间提示指导的调节

TL;DR视频摘要旨在创建具有简短、准确和连贯特点的长视频摘要。通过引入Instruct-V2Xum数据集和V2Xum-LLM框架,该研究旨在解决现有视频摘要数据集的不足以及从单模态到多模态视频内容摘要的需求。