- 一个预测性学习模型可以模拟连续语音的神经表示中发现的时间动力学和上下文效应
模拟了从计算模型中提取的表示进行的分析揭示了与大脑信号相似的时间动态,这表明这些特性可以在没有语言知识的情况下出现。此外,研究证明,声素的编码模式支持一定程度的跨语境概括,但我们发现这种概括的有效性取决于具体的语境,这表明单独的分析不足以支 - 探索手语音系学建模策略
我们学习了图形卷积网络来识别 ASL-LEX 2.0 中的十六种手语音素类型,通过多任务学习和课程学习等学习策略实现了对手语音素更好的建模。在 Sem-Lex 基准测试中,课程学习的平均准确率为 87%,在大多数音素类型中优于微调和多任务策 - 音素和面貌的隐秘舞蹈:揭示音素与面部特征之间的神秘关联
本研究揭示了音位和面部特征之间的神秘联系,通过提出细粒度的语音 - 面部关系分析流程,证实了元音比辅音更容易通过行气和面部运动来预测面部人体测量学属性,并为未来研究语音 - 面部多模式学习奠定了基础。
- ACL语言习得:儿童与语言模型是否遵循相似的学习阶段?
研究比较 GPT-2 模型和儿童语言习得的性质,发现两者的语言学习趋势相似但也存在差异。
- 跨语言数据集引导的共现词性:以音系、抽象性和情感为案例
本文介绍了如何通过共分化现象的利用,建立跨语言数据集,以分析其在精神语言学、认知科学和多语言自然语言处理中的潜力,并在研究中发现了属于不同语言家族的元音和音素的显着相似性。
- 英文语音合成的统一前端框架
该论文提出了一种统一的前端框架,以捕捉英语 TTS 前端模块之间的相互依赖关系,从而实现了所有模块的最新水平性能。
- 分析用于口语语言模型的离散自监督语音表示
本文通过生成式语言模型的视角深入分析离散自监督语音表示(单元),并提出了对于该模型单元的实用改进方法。其分析发现语音单元与音素和音素族之间存在较高的相关性,且与说话人或性别的相关性较弱。此外,该研究发现单元提取中存在冗余性,并提出了一种新的 - 脑启发式概率生成模型用于口语双关节分析
本研究基于多项神经科学调查结果,设计了一个基于概率生成模型的双关节语音分析假设模型,并探讨了它在人脑中的实现方式,为进一步探索大脑中双关节语音分析提供了重要的基础。
- 无监督语音识别
本文介绍了 wav2vec-U 这种方法,可以通过无监督学习的方式训练语音识别模型,许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。
- 多语言异音字系统的通用手机识别
本研究中,通过建立联合模型来处理语言独立性的音位和语言相关性的音素的分布,改进了语音识别性能,同时可以建立一种 (几乎) 通用的音位识别器,当与 PHOIBLE 大型手动编辑的音位库相结合时,可定制为 2,000 个语言相关的识别器,此识别 - 基于音标的语音识别错误对齐方法,用于语音翻译错误分析
我们提出了一种名为 POWER 的新的指标来评估语音识别错误率,该指标考虑到了音素的对齐。POWER 指标可捕捉语音识别假设中的同音字错误的一对多词对齐,同时提供更好的单词对齐,将更好地追踪 Levenshtein 错误类型及对语音转换等后 - 大规模视觉语音识别
本文提出一个可扩展的开放词汇视觉语音识别方案,通过构建目前最大的视频对话集和一个设计的集成唇读系统,其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线,一个可扩展的深度神经网络,以将唇部视频映射到音素分布序列,并输出单词 - 音素到面音素的映射:好的、坏的和丑陋的
本文探讨了应用可视嘴唇分类器时由于多对一的映射所产生的音素之间的歧义,证明了不同的音素到可视嘴唇映射之间的性能差异,提出了一种新的算法用于构建标记语音数据的音素到可视嘴唇映射,并且表明这种新的可视嘴唇 'Bear' 映射的性能优于以前的单位 - 哪些音素到视音素映射能最好地提高仅靠视觉进行的计算机唇读准确率?
本文研究探讨当前视觉语音识别系统的一个重要假设,即存在可称为音素单元的视觉语音单元,这些单元可以映射到声学语音单元;通过研究 120 种不同的映射方法,本文提出一种基于自动唇读系统的音素混淆方法,展示了适用于个体患者的新映射方法。
- 基于循环神经网络的语音表征建模中声音学编码
研究使用回归神经网络模型处理图像和其口述描述中语音音素的表示和编码,通过一系列实验分析了音素如何在模型的各层中编码,发现最明显的音素表示在较低层,而注意力机制则显著削弱语音学编码,并使得话语嵌入更加不变。