- ICMLAND:用于解释深度声音的音频网络解剖学
介绍了 AND,第一个通过高响应音频自动建立自然语言解释的声学神经元的声学网络解剖框架,并通过大量实验证实了 AND 的准确和信息丰富的描述。同时,展示了 AND 在声音机器遗忘方面的潜在用途,通过基于生成的描述进行概念特定剪枝。最后,通过 - 为瑞典自动语音识别系统开发声学模型
本研究旨在通过训练系统实现自动持续语音识别,并以瑞典口语为例,使用隐藏马尔可夫模型,利用 SpeechDat 数据库进行参数训练。在这项研究中,声学建模在语音识别应用方面具有一定的普适性,尽管对模型评估仅考虑了一个简化的任务(数字和自然数识 - 通过双层优化实现语音自动识别的联合无监督和有监督训练
本文提出了一种新颖的基于双层优化训练的方法来训练用于自动语音识别(ASR)任务的声学模型,称之为双层联合无监督和有监督训练(BL-JUST)。BL-JUST 通过使用无监督损失和有监督损失进行下层和上层优化,利用最新的基于惩罚的双层优化的进 - 上下文大小对语音预训练的影响:更大并不总是更好
调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型,发现在训练和推理过程中,40ms 的上下文能够达到最佳的音素可辨识性,而太多上下文则会显著降低表示质量,并且这种模式在监督 ASR 中也适用,当预训练表示被用作冻结输入特征时。 - D4AM:用于下游声学模型的通用去噪框架
在嘈杂环境中,声学模型的性能明显下降。本研究提出了一种用于各种下游声学模型的通用降噪框架 D4AM,通过特定声学模型和相应的分类目标,用反向梯度调整语音增强模型并考虑回归目标作为辅助损失,该方法可以直接估计合适的权重系数,从而避免了额外的训 - EMNLP多语言自学习语音表示改进资源有限的非洲语种混杂语音识别
利用自监督语音表示的微调和利用转录训练的 n-gram 语言模型增强多语言表示,相对于从头开始训练的混合模型,将代码切换数据的绝对词错误率降低了高达 20%。研究结果表明,在训练数据受限的情况下,微调自监督表示是一种更优秀和可行的解决方案。
- 提升开放世界转换中声学基础模型的测试时适应能力
本论文研究了面对开放世界数据变化的预训练声学模型的测试时间适应方法,通过引入无启发式、基于学习的自适应方法并结合置信度提升以及在测试时间优化中应用一致性规范化,证明了该方法在合成和真实数据集上的优越性。
- MuLan: 音乐音频与自然语言的联合嵌入
MuLan 是一种新型的声学模型,通过将音乐音频直接链接到自由形式的文字注释,构建与各种音乐流派和文本样式兼容的音频 - 文本表示,具有真正的零样本功能,可用于传输学习、零样本音乐标记、音乐领域语言理解和跨模态检索应用等。
- 利用时延神经网络进行自动语音语言识别
本研究构建并训练了一种基于自动语音识别技术的语言识别系统,可自动识别阿拉伯语、西班牙语、法语和土耳其语,并通过投票方式进行预测,准确率很高。
- 国家图书馆内的言语语料库与瑞典语言音模型
本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库,对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终,作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型 - 数据集对自动语音识别声学模型的影响
本文研究了不同数据集大小对各种 GMM-HMM 声学模型性能及其计算成本的影响。
- 基于直觉韵律特征的统计参数语音合成中的说话人适应
本论文提出了一种利用直观韵律特征进行说话人适应的方法,在 Tacotron2 的基础上,将直观韵律特征与文本编码器的输出和说话人向量拼接编码,实现音频的转换,在客观和主观的表现上都超过了基准方法,其中基于话语层面的直观韵律特征的方法达到了所 - MM通用手机:用于鲁棒声学建模的多语言数据集
本研究介绍了多语言语音数据集 Common Phone,用其于 Wav2Vec 2.0 音频模型的参数训练并取得了 18.1% 的识别率,提供了可靠的注音,从而缩小了声学模型应用于实际场景的差距。
- 神经语音合成调查
本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展,进一步总结了相关资源(数据集、开源实现),并提出了未来的研究方向。
- 声学模型的缩放率
本文研究机器学习中的自回归生成模型和声学模型,探讨其性能和规模之间的比例关系,通过预测各项损失量,建立规模预测和性能选择间的联系,提出了几个调整性能的超参数的方案
- SPGISpeech:5000 小时的财经音频文本,用于完全格式化的端到端语音识别
本文提出了一种新的语音转文字任务,即端到端的全格式文本转换,通过训练 Conformer-based 模型,成功实现了一个基线模型。
- SEP-28k:面向带口吃者的播客口吃事件检测数据集
本研究介绍了一个包含超过 28k 个剪辑的数据集,用于自动检测语言中的口吃事件,并通过将其用于声学模型的训练演示了数据集的有效性。
- 多语言异音字系统的通用手机识别
本研究中,通过建立联合模型来处理语言独立性的音位和语言相关性的音素的分布,改进了语音识别性能,同时可以建立一种 (几乎) 通用的音位识别器,当与 PHOIBLE 大型手动编辑的音位库相结合时,可定制为 2,000 个语言相关的识别器,此识别 - 自动歌词与音频对齐的声学建模
该研究提出使用额外的语音和音乐相关特征,通过对大量独唱人声进行训练的声学模型来适应少量领域数据中的复调音乐,并利用常规声学特征一起实现鲁棒性,该策略在词汇边界对准错误的显著降低中取得了成效,特别是在具有长时间音乐插曲的复调数据上。
- 使用百万小时的语音构建声学模型的经验教训
本报告探讨了利用未标记语音数据进行声学模型构建的方法 —— 采用学生 / 教师训练和定期交替的有标记和未标记数据学习,并在分布式训练中利用 BMUF 和梯度阈值压缩 SGD,在较小的超参数调整范围内获得了 10 至 20%的识别率提高。