- UBiSS:视频的双模态语义摘要的统一框架
视频摘要的技术有越来越多的关注,本文提出了一种名为 Bimodal Semantic Summarization of Videos 的更全面的视频摘要任务,通过构建大规模数据集 BIDS 和提出统一框架 UBiSS 来实现高质量的视频摘要 - Shotluck Holmes:用于视频字幕和摘要的高效小规模大语言视觉模型家族
我们提出一种名为 Shotluck Holmes 的高效大型语言视觉模型 (LLVMs),通过改进预训练和数据收集策略,扩展现有小型 LLVMs 的能力,从仅能理解一张图片到能够理解连续的帧序列,在 Shot2Story 视频字幕和摘要任务 - CVPRCSTA:基于卷积神经网络的时空注意力视频摘要
提出了一种基于 CNN 的时空注意力(CSTA)方法,将视频的每个帧的特征堆叠起来形成类似图像的帧表示,并应用 2D CNN 对这些帧特征进行处理,实现对关键属性的学习和视觉重要性的捕捉,在 SumMe 和 TVSum 等数据集上实验证明了 - 视频总结的多粒度解释集成框架
本论文提出了一个综合的视频摘要的多粒度解释框架,通过整合在片段级别和更细粒度的视觉对象级别产生解释的方法,通过使用模型无关的基于扰动的方法来在片段级解释视频摘要结果,并引入了将视频全景分割结果与基于扰动的解释方法相结合的新方法来产生对象级解 - 利用语言引导的自监督视频摘要生成方法,考虑视频多样性的文本语义匹配
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为 - V2Xum-LLM:跨模态视频摘要与时间提示指导的调节
视频摘要旨在创建具有简短、准确和连贯特点的长视频摘要。通过引入 Instruct-V2Xum 数据集和 V2Xum-LLM 框架,该研究旨在解决现有视频摘要数据集的不足以及从单模态到多模态视频内容摘要的需求。
- VideoSAGE: 利用图表示学习进行视频摘要
提出了一种基于图的表示学习框架用于视频摘要,通过将输入视频转换为图,从而在图上建立稀疏连接,将视频摘要任务转化为二进制节点分类问题,以捕捉视频帧之间的长程相互作用,同时具有更高的计算效率和内存利用率。
- 增强上下文感知的视频摘要
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信 - 基于聚类的视频摘要与时序上下文感知
提出了 TAC-SUM,一种新颖且高效的无需训练的视频摘要方法,它通过融入时间上下文来解决现有基于聚类模型的局限性。该方法将输入视频分割为具有聚类信息的时间连续片段,使时间感知得以注入到聚类过程中,以突出先前的基于聚类的摘要方法。最终,利用 - CVPR大规模语言模型在视频摘要预训练中的扩展
利用大型语言模型生成大规模的视频摘要数据集,提出了一种新的视频摘要模型,并呈现了一个由专业人员注释的高质量摘要的基准数据集,实验证明该方法在多个基准测试中达到了最新的最佳效果。
- FastPerson: 通过有效的视频摘要提升视频学习,保留语言和视觉背景
快速理解冗长的讲座视频对于时间有限、兴趣有限的学习者提高学习效率非常重要。为此,我们提出了 FastPerson 视频摘要方法,该方法考虑了讲座视频中的视觉和听觉信息,通过利用音频转录、屏幕上的图像和文本创建摘要视频,最大限度地减少了学习者 - 基于大型模型的视频摘要顺序关键帧提取
大规模模型序列关键帧提取,包含 TransNetV21 和 CLIP2 模型的视频语义总结方法。通过提出的自适应聚类算法,剔除冗余并得出最终的序列关键帧。在与其他竞争方法的比较中,证实了这种方法的卓越性能。
- 超越框架:用户定义长度的单个和多个视频摘要方法
本文结合了多种自然语言处理技术和视频处理技术,将长视频转换为相对较短的单一视频,还探索了多个视频的合并摘要,证明视频摘要是一项困难但重要的工作,具有进一步研究和开发的潜力,这得益于自然语言处理模型的发展。
- Shot2Story20K:多割视频全面理解的新基准测试
通过一个多镜头视频理解基准(Shot2Story20K)的详细镜头级标题和全面视频摘要,提供了一种更好的视频语义理解方法,包括可视化信号和人类叙述的标题,摘要,检索以及摘要生成,这将显著提升现有视频理解任务的性能,并促进了视频理解中对详细摘 - MM360 度视频的时空摘要集成系统
该研究提出了一个综合的系统,用于 360 度视频的时空摘要。该系统通过检测显著事件并将其摘要成简洁的摘要来生成视频摘要。研究使用了最先进的 360 度视频显著性检测和视频摘要方法,并包含了一种根据录制过程中使用的静态或移动摄像机分类 360 - MM促进在社交媒体上分享精心制作的视频摘要
该论文提出了一个基于网络的工具,用于在社交媒体上进行定制摘要的制作。通过交互式用户界面,它支持 “一键” 视频摘要过程。基于集成的视频摘要和宽高比转换的人工智能模型,它可以根据目标平台的需求生成多个完整视频的摘要,包括视频的长度和宽高比。
- 基于条件建模的自动视频摘要
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降 - 视频银行:融合和解耦增强跨模态生成
该研究提出了一种名为 Video-Teller 的视频语言基础模型,通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明,该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。
- 视频摘要的有效性:量化语言在视频摘要中的影响
通过仅使用通过零样本方法获取的文本标题,我们提出了一种高效的纯文本视频摘要方法,能够以高数据效率实现有竞争力的准确性。我们通过训练语言转换模型并摒弃图像表示来进行视频摘要,从而允许我们在代表性文本向量之间进行筛选并压缩序列。我们的方法能够使 - 基于自注意力的生成式对抗网络用于无监督视频摘要
本文通过引入自注意力机制和 Transformer 在视频总结中建模时间关系,以无监督的方法通过对抗性学习生成代表性摘要,并提出 SUM-GAN-AED 模型,评估结果表明,使用自我注意力机制作为帧选择机制在 SumMe 上优于现有技术,并