video content | BriefGPT - AI 论文速递

关键词video content

搜索结果 - 17

NarrativeBridge：以因果时态叙事增强视频字幕
现有的视频字幕基准和模型缺乏一致的因果 - 时间叙述表示，这是通过因果关系连接的事件序列，随着时间的推移由角色或代理驱动。为了解决这一问题，我们提出了 NarrativeBridge，它包括通过使用大型语言模型和少量提示生成了新颖的因果 -
PDFa month ago
感知视频质量评价：综述
视频质量评估在视频处理领域中起着至关重要的作用，本文提供了对视频质量评估研究的最新和全面的综述，包括主观视频质量评估方法和数据库、通用目的的客观视频质量评估算法、特定应用和新兴主题的客观视频质量评估指标的概述，以及最先进的视频质量评估指标的
PDF5 months ago
DragVideo: 交互式拖拽式视频编辑
通过采用与 DragGAN 相似的拖拽式用户交互来编辑视频内容并保持时间一致性的 DragVideo，通过优化视频 U-Net 生成的扩散视频潜变量来实现所需的控制，展示了拖拽式视频编辑的可适用性和通用性。
PDF7 months ago
利用显著性和裁剪提高视频记忆能力
本文通过选择性裁剪基于图像显著性的帧来提高视频的可记忆性
PDF10 months ago
应用条件控制技术于文本到视频模型的未来草图
本文介绍了一种将零 - shot 文本 - 视频生成与 ControlNet 相结合的新方法，以生成更精准地与用户预期运动相符的高质量视频内容，并提供了相关资源包以促进进一步研究和应用。
PDFa year ago
视频聊天字幕生成器：朝向丰富化的时空描述
本研究提出了一个新的视频描述方法，即 Video ChatCaptioner，它使用 ChatGPT 模型作为控制器，提出视频内容驱动的问题并回答这些视觉查询，从而生成包含更多视觉细节的视频标题。
PDFa year ago
CVPR基于物理学的扩散模型的视频冲击声合成
本文提出了一种基于物理驱动扩散模型的冲击声合成方法，该方法结合了视频内容和物理参数作为先验信息，从而可以高保真地合成出静音视频中的冲击声，并且能够灵活地进行声音编辑。
PDFa year ago
知识型视频问答：回答基于知识的问题
本研究提出了一种新颖的视频理解任务方法，将基于知识的问题回答融合进来，提出了一个关于情景喜剧的视频数据集 (包括 24,282 个由人类生成的问题 - 答案对)，该数据集融合了视觉、文本和时间的连贯思维，同时也需要观看该系列影片的体验知识才
PDF5 years ago
带时间感知网络的快速视频人群计数
本文提出了基于时间感知建模的人群计数方法，使用了一些扩张残差块，并提出了一个轻量级网络来平衡计算成本和表示能力，实验表明该方法在人群计数领域具有显著的优势。
PDF5 years ago
CVPR从句子中分离演员和动作的视频分割
该研究旨在实现对视频内容中演员和他们的动作进行像素级别的分割。通过自然语言输入句子推断分割，以实现在同一超级类别中对精细的演员进行区分，并识别演员和动作实例，以及分割超出演员和动作词汇的成对内容。提出了一种用于视频像素级别的演员和动作分割的
PDF6 years ago
CVPRRNN 的激活反向传播
本研究提出了一种基于深度模型的视频内容分析方法，同时利用自顶向下的显著地图来将证据同时固定在空间和时间上，并通过模型内部表示可视化出影响深度模型输出的时空线索，进而能够在视频段中定位特定动作或字幕短语所对应的特征。
PDF7 years ago
从噪声测量中恢复主观质量评分
本研究提出了一种基于最大似然估计的新方法，可以从嘈杂的原始测量中恢复主观质量分数，并联合估计受损视频的主观质量，测试对象的偏差和一致性以及视频内容的歧义性，同时提供了每个估计的置信区间的封闭形式表达式。相对于先前方法，我们的方法能够充分利用
PDF8 years ago
从视频自动选择美丽缩略图：点击或不点击
我们提出了一种自动缩略图选择系统，该系统利用与有意义且有吸引力的缩略图常见相关的两个重要特征：与视频内容的高相关性和卓越的视觉美学质量。该系统通过分析视频帧的各种视觉质量和美学度量，执行聚类分析以确定与视频内容的相关性，从而使产生的缩略图更
PDF8 years ago
视频字幕生成的帧和片段级特征及候选池评估
本研究以编码器 - 解码器结构为基础，利用不同的视频特征训练了两个分别负责对象和动作信息的输入子域的模型，并采用一个评估模型从这些专业模型生成的候选语句中选择最佳的视频简述，相较于单一模型，该方法更适用于视频简述任务并在 MSR 视频语言挑
PDF8 years ago
联合建模嵌入和翻译以桥接视频和语言
本文提出了一种名为 LSTM-E 的新型统一框架，它可以同时探索 LSTM 和视觉 - 语义嵌入的学习，以有效生成自然语言描述的视频内容，实验表明 LSTM-E 在生成自然语言句子方面的表现优于目前为止的最佳表现，对于预测 SVO 三元组也
PDF9 years ago
Femtocaching 和设备对设备协作：一种新的无线视频分发架构
该研究提出了一种新的架构来处理无线网络中对视频内容的持续爆炸式增长的需求，该架构基于分布式缓存，在具有存储空间但回程传输带宽很小或不存在的 femto 基站中缓存内容，也考虑使用移动终端本身作为缓存助手，并将视频通过设备间通信进行分发。这种
PDF12 years ago
基于逻辑编程的活动识别方法
使用事件演算法识别基于视频内容的短期活动，进而推断长期预定义活动的系统及其详细评估结果。
PDF15 years ago