优化语义增强以实现视频字幕的频率扩散

Nov, 2022

优化语义增强以实现视频字幕的频率扩散

Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning

Xian Zhong, Zipeng Li, Shuqin Chen, Kui Jiang, Chen Chen...

TL;DR本文提出了一种新的改进语义增强方法以应对低频词对视频标题生成的限制。通过引入 Frequency-Aware Diffusion (FAD) 模块，以更好地理解低频词汇的语义，改进了标题的生成；设计了 Divergent Semantic Supervisor (DSS) 模块，以进一步强调低频词的语义从而缓解长尾问题。实验证明，该方法优于现有方法，并可获得全面的生成效果。

Abstract

video captioning aims to generate natural language sentences that describe the given video accurately. Existing methods obtain favorable generation by exploring richer visual representations in encode phase or improving the decoding ability. However, the long-tailed problem hinders the

video captioning refined semantic enhancement frequency-aware diffusion long-tail problem low-frequency tokens

发现论文，激发创造

Diffusion-RSCC: 遥感图像中变化描述的扩散概率模型

遥感图像变化标题生成（RSICC）旨在生成人类化语言，描述双时相遥感图像对之间的语义变化。我们提出了一种概率扩散模型来解决传统变化标题生成任务中的像素级差异对地形变化定位的影响，并在 LEVIR-CC 数据集上进行了广泛实验，展示了我们 Diffusion-RSCC 的有效性及其各个组成部分。

May, 2024

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

细粒度可听视频描述

本文介绍一项新的音频视觉语言建模任务：细粒度可听视频描述（FAVD），旨在为给定的听觉视频提供详细的文本描述，包括每个物体的外观和空间位置，移动物体的动作以及视频中的声音，本文还构建了第一个 fine-grained audible video description benchmark（FAVDBench），并提出了两个新的度量标准。我们使用先前的视频字幕模型加入了一个附加的音频分支的 audio-visual-language transformer 对该任务进行了初步的尝试，并证明了 fine-grained video descriptions 可帮助创建比字幕更复杂的视频。

Mar, 2023

无需训练的离线扩散增强原型生成开放词汇分词

该论文介绍了一种用于开放词汇语义分割的无需训练的扩散增强方法（FreeDA），通过扩散模型的能力来可视化生成概念并通过局部 - 全局相似性将无类别区域与语义类别匹配，从而在五个数据集上实现了超过 7.0 平均 IoU 点的最先进性能，而无需任何训练。

Apr, 2024

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架 VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

RSDiff：基于扩散模型的遥感图像生成

通过渐进式扩散模型，纯基于文本提示逐渐生成高分辨率的卫星图像，并在远程感知领域取得了优越的超分辨率结果与真实地理特征的生成。

Sep, 2023

基于语义条件扩散网络的图像字幕生成

本文提出了一种基于 Semantic-Conditional Diffusion Networks（SCD-Net）的图像字幕生成模型，用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐，并采用自举序列训练策略稳定扩散过程，实验证明其在 COCO 数据集上取得了很好的表现。

Dec, 2022

非自回归式的粗到细视频字幕

本文提出了一种非自回归解码的模型，使用基于双向自注意力的语言模型来加速推理，生成视频字幕的过程分为两个阶段，通过迭代的修改，得到高质量的细致视频描述，大量实验表明该方法达到了最先进的性能，并获得了高推理效率。

Nov, 2019

图像字幕反射解码网络

该论文提出了一种名为反思解码网络（RDN）的图像字幕生成模型，在编码器 - 解码器框架下增强了字幕解码器中的长序列依赖和位置感知，以最大化所生成的字幕中传递的信息，并通过在视觉和文本特征上协同关注来实现图像字幕的生成。实验结果表明，使用此方法可显著提高复杂情景下的图像字幕生成效果。

Aug, 2019