- 挪威议会演讲语料库
使用挪威议会语音语料库进行自动语音识别训练较手稿朗读语音训练效果更好,尤其对方言的识别表现更出色。
- EMNLP使用离散化和分解表示的无文本语音情感转换
本研究以口语语音转换为任务,将情感转换问题作为语音翻译任务,使用离散学习表示的语音信号分解,包括语音内容单元、韵律特征、说话人和情感,并使用预测表示生成神经波导器的语音波形来实现对口音内容的翻译,并通过客观和主观实验证明该方法在感知情感和音 - Speech2AffectiveGestures: 利用生成对抗情感表达学习合成共语手势
本文介绍了一种基于生成对抗网络的 3D 姿势序列综合方法,通过合适的情感表达来综合共语上半身手势姿势。
- 融合声音和文本编码的多模式双语预训练和语音翻译
提出了一个 Fused Acoustic and Text Masked Language Model (FAT-MLM), 它通过多种类型的语料库(包括用于语音识别和机器翻译的并行数据、纯语音和文本数据)联合学习了一个统一的音频和文本输入 - 建模语音变化的神经表征
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
- 非自回归 预测编码:从局部依赖学习语音表示
本研究提出非自回归预测编码 (NPC) 的自学习方法,通过仅依赖语音的本地依赖,在非自回归方式下学习语音表示。使用新引入的蒙版卷积块实现 NPC 的概念简单、易于实现的目标,并且在每个时间步长上具有固定的推断时间,从而加速了推理速度。理论和 - 从文本、音频、说话者身份的三模态上下文生成言语手势
本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型,使用新的手势生成度量标准和主观人类评估表明,该模型优于现有的端到端生成模型。
- SimulEval:一款用于同时翻译评估的工具包
SimulEval 是一个易于使用、面向同时文本和语音翻译的通用评估工具包,通过客户端执行自定义策略实现同时解码,自动执行同时解码并收集几个流行的延迟度量。
- 利用深度生成混合网络和敌对对偶辨别器进行非并行情感转换
提出了一种新颖的情感语音转换方法,采用变分循环生成对抗网络(VC-GAN)在没有平行训练数据的情况下进行转换,并通过基本频率轮廓的生成模块进一步优化训练过程,可以实现高质量的情感转换语音的合成。
- 带节奏头部动作的虚拟说话人生成
本文提出一种基于 3D-aware 生成网络、混合嵌入和非线性合成模块的方法,通过显式建模头部运动和面部表情,精心处理 3D 动画以及动态嵌入参考图像,实现了可控、逼真、时序连贯的说话者头像视频,并在多个标准基准测试中表现出优异的结果。
- 英文语音端到端命名实体识别
本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集,并提出了一种端到端的方法,该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明,所提出的端到端方法优于经典的两步方法,并讨论了如何使用语音的 NER 来处理 A - ViSQOL v3: 一种开源的、生产就绪的客观语音和音频指标
使用开源 C++ 库 ViSQOL 能够对音频和语音进行感知质量的评估,新版本相较于之前版本在设计和使用上均有改进,已获得 Google 内部团队的反馈并使用于生产环境,同时与真实数据进行了评估和基准测试,但仍存在一些限制和改进空间。
- MM语音情感识别的可迁移特征学习
本文提出了一种基于卷积神经网络和长短记忆网络的深度学习架构,通过使用可转移的特征从多个源域自适应模型并识别不同情感领域的语音情感,实验结果表明,该方法提供了 4.3%至 18.4%的效果增益。
- 语音和视觉系统中深度神经网络调查
该论文对视觉和语言领域中深度神经网络的最新架构、算法和系统进行了综述,并总结了在硬件限制平台上运行深度神经网络的主要挑战和最新进展,探讨了情感计算、智能交通和精准医学等领域中的新兴应用。
- Wav2Pix: 使用生成式对抗网络进行语音条件下的人脸生成
本文中,我们探索了使用原始语音信号通过条件生成对抗网络(GAN)生成说话人的面部图像的潜力。我们使用自监督方法构建模型,同时利用自然对齐的音频和视觉信号,训练出一种从头开始生成面部图像的深度神经网络,没有任何额外的身份信息。我们使用一个新数 - ACL利用平行语料库进行迁移学习的中文阅读测试测评模型开发:以普通话阅读为例
该研究提出了一种方法,通过使用大量平行语料对两种语言中的工程化词汇 - 句法特征之间的对应关系进行学习,来检测阿尔茨海默病,特别是在汉语中,其性能优于单语和基于机器翻译的基线。这是第一项在检测认知衰退时转移特征域的研究。
- 野外情感语音识别中的跨模态转移
本篇研究提出一种基于面部表情的情感识别的无监督学习方法,通过跨模态蒸馏将面部表情标注传递到语音领域,用于语音情感识别,实现了在未标注音频数据下学习语音情感表示的目标。
- ACL神经语音翻译的绑定多任务学习
本文探讨了用于神经语音翻译的多任务模型,并对其进行增强,以反映两个直观概念。精准的中间表示和神经关联的模式,参与模型的训练可以提高低资源语音转录和翻译任务的性能。
- 零资源语音挑战赛 2017
本文介绍了一项新挑战,旨在从原始语音中发现子词和单词单位。该挑战旨在构建跨语言的系统,并适应新的讲话者,介绍了挑战的设计特点和评价指标,并讨论了十七个模型的结果。
- 基于循环神经网络的语音表征建模中声音学编码
研究使用回归神经网络模型处理图像和其口述描述中语音音素的表示和编码,通过一系列实验分析了音素如何在模型的各层中编码,发现最明显的音素表示在较低层,而注意力机制则显著削弱语音学编码,并使得话语嵌入更加不变。