DiffNorm：自监督标准化非自回归语音转语音翻译

May, 2024

DiffNorm：自监督标准化非自回归语音转语音翻译

DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation

Weiting Tan, Jingyu Zhang, Lingfeng Shen, Daniel Khashabi, Philipp Koehn

TL;DR这项研究介绍了 DiffNorm，一种基于扩散的规范化策略，通过去噪合成损坏的语音特征构建规范化的目标数据，同时提出使用无分类器指导来进行非自回归 Transformer 模型的正则化，从而在速度和翻译质量上实现了显著的提升。

Abstract

non-autoregressive transformers (NATs) are recently applied in direct speech-to-speech translation systems, which convert speech across different languages without intermediate text data. Although NATs generate h

non-autoregressive transformers diffnorm speech-to-speech translation systems data distribution classifier-free guidance

发现论文，激发创造

利用对比学习优化非自回归变换器

本文提出了一种基于 DA-Transformer 模型和从模型分布中采点的对比约束的非自回归 Transformer 模型，通过这种方式减轻模态学习的难度，取得了在机器翻译，文本摘要和改写等多个基准数据集中显著的最新非自回归 Transformer 模型的性能。

May, 2023

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

非自回归翻译的多粒度优化

本论文提出了一种针对非自回归机器翻译的多粒度优化方法，利用反向传播集成不同粒度的翻译段的模型行为反馈，实现在 WMT 基准测试集上超越对比模型，且在 WMT'16 En-Ro 上实现了最佳性能，在 WMT'14 En-De 上实现了高竞争的结果。

Oct, 2022

重访非自回归 Transformer 用于高效图像合成

通过重新评估非自回归变压器的训练和推理策略设计，本文提出了一种名为 AutoNAT 的方法，该方法在自动框架中直接解决最优策略，从而大幅提升了非自回归变压器的性能，并且能够与最新的扩散模型在显著降低推理成本的同时进行可比较的表现。

Jun, 2024

全非自回归神经机器翻译：技巧窍门

本研究提出了一种全非自回归神经机器翻译（NAT）的方案，采用依赖关系减少等方法，缩短推理延迟同时提升翻译质量，在三个翻译基准测试中实现了新的全自然机器翻译模型的最高水平，并在推理时间上取得了大约 16.5 倍的速度提升。

Dec, 2020

非自回归神经机器翻译的选择性知识蒸馏

本文提出了一种选择性知识蒸馏技术，通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标，并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能，在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明，我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡，取得了出色的性能。进一步的分析表明，只通过 5% 的原始翻译数据，就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。

Mar, 2023

非自回归神经机器翻译中的 N 元词袋差异最小化

本文提出通过训练 NAT 最小化模型输出和参考句子之间的 N-Gram 差异来促进 NAT 捕捉目标方面的序列依赖性，并与翻译质量相关。在三个翻译任务上验证了我们的方法，结果显示我们的方法在 WMT14 En<->De 和 WMT16 En<->Ro 上比 NAT 基线大约 5.0 和 2.5 个 BLEU 分数。

Nov, 2019

模块化框架下的流式语音识别全局标准化

介绍了全局归一化自回归转换器 (GNAT) 解决了流式语音识别中的标签偏见问题。我们的解决方案采用可计算的分母来实现序列级别归一化。通过理论和实证结果，我们展示了通过切换到全局归一化模型，可以极大地减少流式和非流式语音识别模型之间的词误差率差距（对于 Librispeech 数据集，减少了超过 50%）。此模型在一个模块化框架中开发，包含所有普通的神经语音识别模型。这个框架的可模块化性使得可以对建模选择进行控制比较，创造新的模型。

May, 2022

Diffusion-NAT：自提示离散扩散用于非自回归文本生成

本文提出 Diffusion-NAT，将离散扩散模型引入 NAR 文本生成，并结合 BART 改进性能，实现了 BART 的解码过程与 DDM 的去噪过程统一，最终结果表明，我们的方法在 7 个数据集上取得了很好的效果，甚至超过了自回归方法。

May, 2023

非自回归神经机器翻译的任务级课程学习

本研究提出了一种训练曲线，通过任务级别的课程学习（TCL-NAT）将模型训练从更简单的自回归翻译（AT）任务平滑转移到困难的非自回归翻译（NAT）任务，其中引入了中间任务 - 半自回归翻译（SAT），可以通过调整参数 k，平衡翻译速度和准确性，达到在四个数据集上显著提高翻译准确性的效果。

Jul, 2020