对话视频中剪辑的平滑化处理

Jan, 2024

Jump Cut Smoothing for Talking Heads

Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang

TL;DR我们提出了一种新颖的框架来平滑跳切，以说话人视频为背景。我们利用视频中其他源帧中主体的出现来融合密集姿态关键点和面部标记的中级表示。为了实现运动，我们在切点周围的最后帧之间插值关键点和标记。然后，我们使用一个基于关键点和源帧的图像转换网络来合成像素。由于关键点可能存在错误，我们提出了一种跨模态注意机制来选择和选择每个关键点的最合适源选项。通过利用这种中级表示，我们的方法可以获得比强视频插值基准更强的结果。我们在说话人视频的各种跳切情况下展示了我们的方法，例如剪辑过渡词、停顿，甚至随机切换。我们的实验表明，即使在说话人旋转或跳切中发生剧烈运动的挑战性情况下，我们也能实现无缝的过渡。

Abstract

A jump cut offers an abrupt, sometimes unwanted change in the viewing experience. We present a novel framework for smoothing these jump cuts, in the context of →

jump cut smoothing talking head videos densepose keypoints image translation network

发现论文，激发创造

3D 感知的讲话头部视频动作转移

本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D，通过生成可视化可解释的 3D 标准头部，从 2D 主体帧中充分利用主体外貌信息，以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块，能够从 2D 主体视频帧预测头部姿势和深度图。此外，我们还采用基于注意力的融合网络，将主体帧的背景和其他细节与 3D 主体头部相结合，生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验，结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法，有证据显示它能够轻松适应受控姿态的新视图合成任务。

Nov, 2023

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

基于文本的人头视频编辑

该研究提出了一种基于转录的视频编辑新方法，可以实现修改视频内容、消除废话词，同时保持音视频流畅的无缝过渡，并使用注释参数和优化策略生成最终逼真的视频输出。

Jun, 2019

视频会议用单镜头自由视角神经对话人头合成

提出了一种新颖的神经网络生成模型，采用关键点作为运动信息的表征形式，从而实现了面部图像的生成，降低了视频会议的带宽要求。

Nov, 2020

Audio2Head：基于音频的单次对话生成，自然的头部运动

本文提出一种基于音频驱动的头像动画方法，该方法同时解决了面部动画和头部运动的问题，并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示，本方法产生的头像动画具有很好的空间和时间连续性，并且性能优于现有技术。

Jul, 2021

具有语义感知先验的可控一次性人脸视频合成

使用人脸先验信息的新方法，通过对源面部解析并对其几何形状进行正则化，可以在可接受的带宽下生成带有改善的语义一致性和表情保持的面部视频，并实现高度可控的姿态和表情生成。

Apr, 2023

带节奏头部动作的虚拟说话人生成

本文提出一种基于 3D-aware 生成网络、混合嵌入和非线性合成模块的方法，通过显式建模头部运动和面部表情，精心处理 3D 动画以及动态嵌入参考图像，实现了可控、逼真、时序连贯的说话者头像视频，并在多个标准基准测试中表现出优异的结果。

Jul, 2020

面向异构来源实现逼真的视觉配音

本文提出了一种简单而高效的两阶段框架，通过面部特征作为中间先验，从真实说话头生成的核心任务中区分出音频和图像的同步和生成，以更容易获取的杂类数据培训两个子网，以及允许对给定的说话头进行进一步的微调，从而实现高保真的 few-shot 视觉配音。

Jan, 2022

Few-shot 谈话头部合成的学习空间表示

研究提出了一种新颖的少样本说话人合成方法，通过解耦表示方法取得了显著的实验结果改善。

Apr, 2021

众人皆醉我独醒：让我依你所愿地说话

该研究提出了一种基于音频输入的编辑目标肖像画面的方法，通过将目标视频帧分解为表情、几何和姿势三个正交参数空间，再利用循环神经网络将源音频转化为表情参数，并在保留原始视频背景的同时合成一个逼真的人物主体，最后利用动态编程构建一个有序连贯且令人信服的逼真视频。

Jan, 2020