基于循环神经网络的语音表征建模中声音学编码

Jun, 2017

Encoding of phonology in a recurrent neural model of grounded speech

Afra Alishahi, Marie Barking, Grzegorz Chrupała

TL;DR研究使用回归神经网络模型处理图像和其口述描述中语音音素的表示和编码，通过一系列实验分析了音素如何在模型的各层中编码，发现最明显的音素表示在较低层，而注意力机制则显著削弱语音学编码，并使得话语嵌入更加不变。

Abstract

We study the representation and encoding of phonemes in a recurrent neural network model of grounded speech. We use a →

发现论文，激发创造

基于堆叠门控循环神经网络的视觉语言学习模型，可以通过音素序列描述的图像描述，学习预测图像的视觉特征，并以层级结构表示语言信息。

Oct, 2016

本文研究了如何在视觉语音循环神经网络中表示和识别单词，使用门控方法分析神经网络所学单词表征的正确性和词汇竞争过程中的单词激活方式，其结果表明当网络能接触到目标单词第一个音素时才能正确识别单词表征。

Sep, 2019

基于视觉基础的言语知觉模型，使用多层循环高速公路网络对时间性建模，能够从输入信号中提取形式和基于含义的语言学知识，并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中，语义方面的编码越来越丰富，而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。

Feb, 2017

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

模拟了从计算模型中提取的表示进行的分析揭示了与大脑信号相似的时间动态，这表明这些特性可以在没有语言知识的情况下出现。此外，研究证明，声素的编码模式支持一定程度的跨语境概括，但我们发现这种概括的有效性取决于具体的语境，这表明单独的分析不足以支持存在语境无关编码。

May, 2024

本文评估了自我监督语音模型的学习表示与人类语音的差异，结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征，尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。

Jun, 2023

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

本文探讨了使用诊断分类器和表征相似性分析两种分析技术来衡量神经网络模型中语音学的表现，并研究了两个因素对分析结果的影响，最终得出全局范围方法往往提供更一致的结果且应作为本地范围方法的补充。

Apr, 2020

本研究基于两个不同语言的数据集，研究了两种预测编码模型（APC 和 CPC）的行为，发现 CPC 模型在短时间内已经取得了更好的表现，其预测损失优化后的表现也符合语音识别领域中音素特征学习的最优化要求。

Jul, 2020