线性电视广告 2D 投放框架
该研究提出了一个名为 Adverts 的框架,可以感知场景和摄像机运动的三维几何形态,将 3D 虚拟物体混合到视频中以创建现实幻觉来推广产品。该框架包含多个模块,可以解决不同的技术难题。实验结果表明 Adverts 框架在通过混合现实技术融合内容上具有巨大潜力,可以推动广告业的发展。
Jun, 2020
AnyV2V 是一个无需训练的框架,通过使用现有的图像编辑工具和图像到视频生成模型,支持各种视频编辑任务,包括基于参考样式的转换、主题驱动编辑和身份操纵,并在性能方面超越了传统方法。
Mar, 2024
以視覺提示(VP)作為研究對象,本文提出了 AutoVP 框架,用於自動化 VP 設計選擇,同時評估其性能。通過對 12 個下游圖像分類任務進行綜合性能評估,實驗結果顯示 AutoVP 優於當前已知 VP 方法,並提供了高達 6.7%的準確率改進和最高 27.5%的性能增益。
Oct, 2023
一种名为 Place-Anything 的新颖且高效的系统,通过仅基于目标物体或元素的图片或文本描述实现将任何物体插入任何视频,提供了一种有效的解决方案来生成和编辑高质量的视频。
Feb, 2024
本文研究了时空视频定位(TVG)的问题,提出了一种新的文本 - 视觉提示框架(TVP)来优化视频编码器和语言编码器,有效地加强交叉模态特征融合并提高了 TVG 的表现。
Mar, 2023
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024
通过引入可学习的标记,VPA(Visual Prompt Adaptation)作为一个框架通过测试时间的自适应实现了视觉提示的普遍性,且不需要源领域信息,实验结果表明 VPA 有效提高了各种模型的历程泛化、抗干扰性和领域适应能力,以及对视觉 - 语言模型的零样本识别性能的鲁棒性改进。
Sep, 2023
自动地将真实场景视频转换成逼真并且可交互的游戏环境的新方法 Video2Game,使用神经辐射场模块捕捉场景的几何与视觉外观,使用网格模块加速渲染,以及使用物理模块模拟对象之间的相互作用和物理动力学。
Apr, 2024
VIA 是一个统一的时空 VIdeo 适应框架,其基础是一种新的测试时间编辑适应方法,用于通过适应预训练的图像编辑模型来提高潜在编辑方向和文本指令之间的一致性,实现精确的本地控制,同时通过进行一致的关注变量适应来维护整个视频序列的全局一致性,以实现编辑效果。实验结果表明,与基准方法相比,使用 VIA 方法进行的编辑更加忠实于源视频,在时空上更加连贯,并具有更精确的本地控制。更重要的是,我们展示了 VIA 可以在几分钟内实现一致的长视频编辑,释放了对长视频序列的高级视频编辑任务的潜力。
Jun, 2024