无监督多模态视频到视频的自监督学习翻译

Apr, 2020

无监督多模态视频到视频的自监督学习翻译

Unsupervised Multimodal Video-to-Video Translation via Self-Supervised Learning

Kangning Liu, Shuhang Gu, Andres Romero, Radu Timofte

TL;DR该研究提出了一个名为 UVIT 的新型无监督视频到视频翻译模型，采用专用编码器 - 解码器结构和双向循环神经网络单元，通过风格内容分解机制使得其能够实现样式一致的视频翻译结果，并通过更改输入帧和风格码提出一种视频内插损失，可以以自我监督的方式训练建筑块。该模型能够以多模式方式生成现实照片和时空一致性的翻译视频。

Abstract

Existing unsupervised video-to-video translation methods fail to produce translated videos which are frame-wise realistic, semantic information preserving and video-level consistent. In this work, we propose UVIT, a novel →

unsupervised video-to-video translation bidirectional recurrent neural network style-content decomposition

发现论文，激发创造

多模态无监督图像到图像的翻译

本研究提出了一种多模态无监督图像到图像的翻译框架 (MUNIT)，该框架可以将图像表示分解为内容代码和风格代码，从而能够生成来自给定源域图像的多样性输出，并能够通过提供示例样式图像来控制翻译输出的风格。该框架在对比最先进的方法的基础上，通过大量实验证明了其优势。

Apr, 2018

复杂场景下的几何无监督图像到图像转换

本文介绍了一种在多元和内容丰富的图像上使用单个物体翻译方法的扩展方法，使用基于目标检测的方式对数据集进行扩充，同时提出了一种适应 FUNIT 框架的方法，以利用其他方法中可以看到的目标检测技术的优势。

Jun, 2021

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

重新思考真正无监督的图像到图像翻译

本文提出了一种针对图像翻译的无监督学习模型，TUNIT，该模型可以在没有成对数据或领域标签的情况下进行图像 - 图像翻译，同时在各种数据集上表现出可比甚至更好的性能。此外，该模型还可以轻松扩展到半监督学习。

Jun, 2020

自监督学习视频诱导视觉不变性

通过使用 Video-Induced Visual Invariances (VIVI) 的自监督学习框架，本文提出了一种可以在 19 种视觉任务中实现超过最佳监督模型的自监督转移学习方法。

Dec, 2019

基于扩散的图像翻译：使用解缕分离的风格和内容表征

本文提出了一种基于扩散的非监督图像转换方法，使用分离的风格和内容表征，并使用 ViT 模型中的中间键提取多头自注意层作为内容保存损失，并匹配文本驱动风格转移的 [CLS] 分类令牌，同时使用额外的 CLIP 损失，实验结果表明，该方法在文本引导和图像引导的转换任务中优于现有的基准模型。

Sep, 2022