一石二鸟：图像和视频风格转换联合学习的统一框架

Apr, 2023

一石二鸟：图像和视频风格转换联合学习的统一框架

Two Birds, One Stone: A Unified Framework for Joint Learning of Image and Video Style Transfers

Bohai Gu, Heng Fan, Libo Zhang

TL;DR本文介绍了一种基于统一风格转移框架 UnST 和领域交互变压器（DIT）的方法，使得同时能实现对图像和视频完成风格转移任务。实验表明 UniST 在图像和视频领域中与现有方法相比表现更佳，通过简单而有效的轴向多头自我关注（AMSA）获得更高的计算效率和风格转移表现。

Abstract

Current arbitrary style transfer models are limited to either image or video domains. In order to achieve satisfying →

style transfer image video unist domain interaction transformer

发现论文，激发创造

领域感知的通用风格迁移

该研究提出了一种新的基于领域感知的样式迁移网络（DSTN），旨在通过捕捉参考图像的领域性质来传递样式。实验结果表明，该模型在艺术和照片逼真的渲染中均比先前的方法表现更好。

Aug, 2021

多模态无监督图像到图像的翻译

本研究提出了一种多模态无监督图像到图像的翻译框架 (MUNIT)，该框架可以将图像表示分解为内容代码和风格代码，从而能够生成来自给定源域图像的多样性输出，并能够通过提供示例样式图像来控制翻译输出的风格。该框架在对比最先进的方法的基础上，通过大量实验证明了其优势。

Apr, 2018

UniST: 达到统一化的显著性转换器用于视频显著性预测与检测

我们介绍了统一显著性转换（UniST）框架，通过综合利用视频显著性预测和视频显著物体检测的关键特性，提取帧序列的表示并设计一个考虑显著性的变换器，在逐渐增加的分辨率上学习时空表示，同时结合跨尺度显著性信息生成鲁棒的表示。根据可信的实验证明，所提出的 UniST 在两个任务的七个具有挑战性的基准测试中表现优越，并且明显优于其他最先进的方法。

Sep, 2023

基于 LLMs 和多路交互的无监督文本风格转换

我们研究了结合注意力屏蔽方法和大型语言模型的无监督文本风格转换任务，提出了四种交互方式，包括调整顺序的管线框架、从语言模型到注意力屏蔽模型的知识蒸馏，以及构建并行例子的上下文学习。实验证明这些多向交互能够在风格强度、内容保留和文本流畅度等方面改善基线结果，提高超过其他系统，包括有监督文本风格转换系统的性能。在 Yelp-clean 和 Amazon-clean 数据集上，相对之前最佳度量结果，它们分别提高了 0.5 和 3.0 个绝对百分点，并获得了新的技术水平。

Feb, 2024

无监督多领域多模态图像到图像转换与显式领域约束解耦

本文提出了一个使用无成对训练数据和单个网络同时训练不同域的多个数据集来学习生成多样化输出的统一框架，并研究了如何更好地提取域监督信息以学习更好的分离表征和实现更好的图像翻译的方法。实验表明，所提出的方法优于或与最先进的方法相当。

Nov, 2019

AesUST: 朝着美学增强的通用风格转移

本研究提出了一种新的美学增强的通用风格转移方法，通过引入美学鉴别器和美学感知的注意力机制，以及两阶段的训练策略和正则化方法，实现了对任意风格的艺术作品进行更加真实和美学的风格转移。

Aug, 2022

在多样化的图像翻译中控制偏见和多样性

本文提出了一种针对失配图像到图像转换中的偏见问题的解决方案，通过引入语义约束确保图像属性的保留，从而实现不带偏见的多样化图像到图像转换。在人脸、物体和场景等领域的实验结果表明了所提出技术的有效性。

Jul, 2019

Style Mixer: 语义感知的多风格转移网络

本文提出了一种基于区域语义的多样式迁移框架，其中引入了新的多级特征融合模块和补丁注意力模块来实现更好的语义对应和保留更丰富的样式细节，并使用区域风格融合模块将多个样式无缝地结合在一起，实现更丰富、更美观的多样式迁移结果。

Oct, 2019

无监督多模态视频到视频的自监督学习翻译

该研究提出了一个名为 UVIT 的新型无监督视频到视频翻译模型，采用专用编码器 - 解码器结构和双向循环神经网络单元，通过风格内容分解机制使得其能够实现样式一致的视频翻译结果，并通过更改输入帧和风格码提出一种视频内插损失，可以以自我监督的方式训练建筑块。该模型能够以多模式方式生成现实照片和时空一致性的翻译视频。

Apr, 2020

实例级图像到图像的转换

本文提出了一种基于实例感知的图像翻译方法，通过使用细粒度的本地和全局风格来处理目标图像，从而实现更准确的线性重建并结合不同对象的多样属性，同时为目标域的局部和全局领域分别使用与源域相应空间区域匹配的风格，从而在精细度和粗糙度上同时受益，改进全局转换的质量，最后基于此方法构建了新的基准测试集并通过实验验证可以帮助实现通用对象检测。

May, 2019