本文介绍了 dGSLM,这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型,使用双塔变压器体系结构与跨注意力机制,经过 2000 小时的对话录音训练,能同时合成两个渠道的人类语音和语音附属特征,并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。
Mar, 2022
基于连续值音频嵌入的生成式口语语言模型(GSLM)通过引入词大小连续嵌入函数、对比损失和 k-NN 采样,取得了多样性和富有表现力的语言生成;该模型与离散单元 GSLM 在生成质量方面表现相当,同时内存效率提高了五倍;此外,词嵌入前后的嵌入具有音韵和语义解释性。
Oct, 2023
本文探讨了基于生成式口语语言建模(GSLM)的语音建模潜力,介绍了其在口语和语音处理中编解码的有效性和重构实验结果。
Jun, 2023
本文研究了在语音语言建模中,离散与连续表示的作用,结论表明离散化具有重要作用,并在 HuBERT 特征上训练了语言模型,在 Zero Resource Speech Challenge 2021 中实现了最新的语言词汇、句法和语义方面的最佳表现。
使用变分自编码器实现了对自然语音生成过程的建模与学习,获得了较大突破。利用学习的潜在空间算术操作,实现了对语音的音素内容或说话人身份的无监督修改,无需平行监控数据。
Apr, 2017
通过生成对抗训练的端到端语音合成系统,我们使用明确的语音、音高和时长建模来训练我们的原始音素到音频转换的 Vocoder,并通过几种预训练模型来实验上下文化和去上下文化的词嵌入,同时介绍一种基于离散风格标记的高度表达的字符声音匹配方法。
本文介绍了一种利用基于分数的生成模型,即扩散模型,以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入,将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明,所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果,并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持,其中尤其在输入信噪比低的情况下,该模型的单词错误率明显降低。
本文介绍了一项新的无监督任务:口语语言建模并给出了 Zero Resource Speech Benchmark 2021,使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量,包括语音、词汇、语法和语义,并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本,表明了从原始语音中建立口语语言建模的可行性,但这种简单管道与文本为基础的 “顶线” 系统相比,性能较差,需要使用更复杂的端到端模型来探索。
Nov, 2020
本文提出了 LauraGPT,一个统一的 GPT 模型,用于音频识别、理解和生成,实现了在多个音频处理基准测试上与现有 SOTA 模型相媲美或卓越的性能。
本文提出了一种同时考虑音频和语言内容的口语句子嵌入方法,并通过音频 - 语言多任务学习问题构建了编码器 - 解码器模型,以学习长期依赖关系。实验表明,在语音识别和情感识别任务中,口语句子嵌入优于基于音素和单词级别的基准模型,且我们的嵌入模型可以更好地模拟高级声学概念并保留语言信息。因此,本文展示了一种泛化的多模态句子嵌入方法,并证明了其在口语语言理解方面的可行性。
Feb, 2019