In-Style: 文本与未编辑视频之间的风格迁移用于文本 - 视频检索

ICCVSep, 2023

In-Style: 文本与未编辑视频之间的风格迁移用于文本 - 视频检索

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval

Nina Shvetsova, Anna Kukleva, Bernt Schiele, Hilde Kuehne

TL;DR在没有手工标注的配对数据的情况下，提出了一种使用未经整理和未配对数据进行文本 - 视频检索的新设置，该方法通过学习文本查询的样式并将其传输到未经整理的网络视频来解决这个问题。通过引入多样式对比训练程序，提高了模型在多个数据集上的泛化能力，并在零样本文本 - 视频检索方面改进了最先进的性能。

Abstract

large-scale noisy web image-text datasets have been proven to be efficient for learning robust vision-language models. However, when transferring them to the task of video retrieval, models still need to be fine-

large-scale noisy web image-text datasets vision-language models text-video retrieval uncurated & unpaired data style transfer framework

发现论文，激发创造

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

Style-A-Video：任意文本视频样式转移的敏捷扩散

这篇文章提出了一种称为 Style-A-Video 的零样式迁移视频美化方法，利用生成式预训练转换器和图像潜在扩散模型，改善图像降噪过程的指导条件，从而在艺术表达和结构保护之间建立平衡，并采用采样优化和时间一致性模块，以达到优秀的内容保护和风格性能。

May, 2023

学习从图像描述到视频检索

我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练，在这种协议下，我们不假设对任何视频有标签的访问，即没有对应用真实字幕的视频集的访问权限；但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景，因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近，零样本学习的图像专家，如 CLIP 已经为视频理解任务建立了强大的基准线。在本文中，我们利用这一进展，实例化两种类型的图像专家模型：文本到图像检索模型用于提供初始骨架，以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧，可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征，进而在文本到视频检索任务中胜过强大的零样本学习基准线 CLIP。在训练过程中，我们从多个最佳匹配视觉内容的视频帧中采样字幕，并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解，并通过在三个标准数据集（ActivityNet、MSR-VTT 和 MSVD）上胜过 CLIP 的零样本学习基准线来证明这个简单框架的有效性。

Apr, 2024

不平衡数据上的多对文本风格转换

本文介绍了一种基于元学习框架的任务自适应多对文本样式转换方法，能够同时处理不同任务之间的元知识差异，并成功解决非平衡数据和不匹配领域等普遍挑战。

Jun, 2021

利用合成数据集的视频到视频转换

一项针对基于文本的视频编辑的新型高效方法，通过自动生成适用于视频转换任务的合成配对视频数据集，用于视频图像编辑指令的转换，并采用长视频采样校正以确保一致性。该方法超越了现有的方法（如 Tune-A-Video），在基于文本的视频编辑方面取得了显著进展，并提出了更多领域探索和应用的激动人心的方向。

Nov, 2023

半监督文本风格转换的传导学习

本研究提出了一种基于检索的上下文感知风格表示的传导学习方法，使用具有检索器框架的注意力编码器 - 解码器，并涉及目标风格中前 K 个相关句子，以减轻非一致性问题。经实验证明，该方法优于几种强基线方法，并且具有广泛且有效的传导学习方法适用于无监督风格转移任务。

Sep, 2021

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

CoVR：从网络视频字幕中学习组合视频检索

通过自动数据集创建方法，我们提出了一个可扩展的 Composed Image Retrieval（CoIR）任务，使用由视频标题对生成的三元组，扩展任务范围到 Composed Video Retrieval（CoVR）。通过在庞大的数据库中挖掘具有相似标题的配对视频，并利用大型语言模型生成相应的修改文本，我们构建了 WebVid-CoVR 数据集，其中包含 1.6 百万个三元组。实验证明，在我们的数据集上训练 CoVR 模型可以有效迁移到 CoIR，提高了 CIRR 和 FashionIQ 基准测试中的最新性能。

Aug, 2023

基于对比学习的梯度导向无监督文本风格转换

本文提出了一种基于对比学习范式的新型文本风格转换模型，通过明确收集相似语义句子和设计基于孪生模型的风格分类器，以解决文本样式转换中的内容迁移和样式歧义等问题。针对这些问题，实验结果表明，该模型比现有技术更加有效。

Jan, 2022

通过学习未配对数据的视频摘要

本文探讨了视频摘要的问题，并提出了一种从未配对数据中学习视视频摘要的方法，该方法使用对抗性目标并对生成的视视频摘要施加多样性限制，实验结果表明该方法显着优于其他替代方法。

May, 2018