基于混合 ASR 瓶颈特征的内容和细粒度韵律信息解耦用于语音转换

Mar, 2022

基于混合 ASR 瓶颈特征的内容和细粒度韵律信息解耦用于语音转换

Disentangleing Content and Fine-grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion

Xintao Zhao, Feng Liu, Changhe Song, Zhiyong Wu, Shiyin Kang...

TL;DR该研究提出了一种使用来自连接时序分类损失和交叉熵损失自动语音识别模型提取的混合瓶颈特征的任何到一语音转换方法，并使用渐变反转层和实例归一化从两种瓶颈特征中提取信息以提高相似度、自然度和语音质量。

Abstract

Non-parallel data voice conversion (VC) have achieved considerable breakthroughs recently through introducing bottleneck features (BNFs) extracted by the →

voice conversion bottleneck features automatic speech recognition timbre similarity hybrid features

发现论文，激发创造

零资源语言中基于子词建模的多语言瓶颈特征

本文基于无监督学习的方法，通过使用多语言瓶颈特征加速语音技术的开发，旨在从语音的子单位建模中提高识别准确率，并使用诊断类自编码器技术进一步提高多语言语音识别系统的性能。

Mar, 2018

多语言瓶颈特征用于改善低资源语言中码切换语音识别性能

本文通过使用多语言瓶颈特征（mBNF）来进行声学建模的自动语音识别研究探讨了借助其他高资源语言的语音语料库来提高 Code-Switching 语音识别性能的潜力，并证明了 mBNF 特征的加入能够明显提高英语 - isiZulu、英语 - isiXhosa、英语 - Sesotho 和英语 - Setswana 语音的性能。

Oct, 2020

基于 CTC 的 ASR 模型知识蒸馏与 BERT

本研究提出使用 BERT 来优化基于 CTC 的自动语音识别，通过计算最合理的 CTC 路径获得对齐，并且不影响 CTC 的快速推理速度。实验结果显示，该方法提高了识别准确率而不影响推理速度。

Sep, 2022

AGAIN-VC: 一种使用激活引导和自适应实例归一化的一次性语音转换

本文提出了基于激活引导和自适应实例标准化的 AGAIN-VC 系统，改进了合成质量和说话人相似性之间的权衡问题，表现最佳。

Oct, 2020

使用多语言瓶颈特征进行 ASR-free CNN-DTW 关键词检测，适用于几乎零资源语言

本文介绍一种基于多语言瓶颈特征（BNFs）的零资源关键字识别方法，将短语音片段进行动态时间规整（DTW）对齐，并使用卷积神经网络（CNN）进行关键字识别，同时借鉴多种资源语言，提高 DTW-CNN 方法的准确性，为低资源语言关键字识别提供了一种有竞争力的选择。

Jul, 2018

wav2vec 2.0 特征提取器的比较分析

该研究论文探讨了利用神经原始波形特征提取器替代传统特征提取方法以及其对自动语音识别系统的影响，并与另一种神经特征提取器进行对比分析，结果表明两者在 LibriSpeech 基准测试上与传统特征提取器具有竞争力，并且分析了所学习的滤波器对 ASR 系统的重要信息的作用。

Aug, 2023

使用瓶颈特征进行直接语音到语音翻译，无需文本注释

提出了一种无需文本标注的直接语音翻译模型，使用瓶颈特征作为中间训练目标，可在普通话 - 粤语语音翻译上实现与级联系统相同的翻译和合成质量。

Dec, 2022

应用变分信息瓶颈和对比学习减少情感分析中的伪相关性

本文提出了一个名为 CVIB 的新型对比变分信息瓶颈框架，用于减少深度模型在输入特征和输出标签之间的虚假关联问题，并通过在原始网络和自剪枝网络之间使用对比学习来同时优化这两个网络。实验表明，该方法在整体预测性能、鲁棒性和泛化性等方面均优于强竞争对手。

Mar, 2023

AutoCycle-VC: 以瓶颈独立为目标的零样本跨语言语音转换

提出了一个简单而强大的零样本语音转换系统，使用了循环结构和梅尔频谱预处理，通过循环一致性损失考虑目标和源说话者之间的转换，同时利用堆叠的随机排序梅尔频谱和标签平滑方法在说话者编码器训练过程中提取不受时间约束的全局说话者表示，模型在主观和客观评估中表现优于现有的最先进结果，并可促进跨语言语音转换并提高合成语音的质量。

Oct, 2023

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023