深度神经网络的无监督音频和语义训练模型
该研究利用 BERT 和 TRILL 向量等先进技术提取特征,测量两种不同语言对话中回合间的语义和听觉相似性,并发现人们更倾向于在语义特征上同调,此外,语义和听觉语言特征的同调程度呈正相关,该研究的发现有助于实施在人机交互中的同调机制。
Dec, 2023
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
Nov, 2020
本文提出了一种无监督的任务无关方法,将大型语言模型中的语义信息融合进入自监督语音编码器,提高了其在意图分类,名称实体识别及槽填充等方面的性能,使其达到了有监督方法同等的效果,为已有的语音编码器的无监督实现提供了可行性证明。
Nov, 2022
本文旨在将 HuBERT 等 self-supervised learning 的模型应用在 SER 系统中,并通过分析模型的每一层得出更好的情感识别效果,提出基于 audio-textual distilled SSL 的模型实现更为高效的情感识别。
May, 2023
本研究通过转换语音信号为由声学单元发现生成的隐藏单元并提出了 WavEmbed,一个多模态连续自编码器,用于预测从语音传感器中提取的隐藏单元的密集嵌入,其次通过知识蒸馏提出 S-HuBERT。最佳性能的模型与人类判断之间的相关性中等(0.5~0.6),且无需依赖任何标签或转录,这些模型还可以轻松扩展以利用语音的文本转录来学习更好的嵌入。
Oct, 2022
人类情绪理解对于推动对话技术走向主流至关重要。我们视语音情绪理解为一项感知任务,这是一个更加现实的设置。通过在 ACM Multimedia 2023 计算跨语音信息挑战(ComParE)中利用其丰富的多语种演讲者数据集和 ' 情感共享 ' 多标签回归目标,我们展示了不同基础模型的训练方案对于超越语音识别等非语义语音任务(例如情绪理解)的效果产生重要影响,尤其是针对多语种演讲者、目标标签的可变性以及回归数据集中的固有不平衡性,我们的结果表明,基于自注意力的轻量级序列模型 HuBERT-Large 相较于报告的基准线有 4.6% 的改进。
Aug, 2023
本研究探讨了深度神经网络在处理时间依赖性信号方面的表现,结果显示语音模型会丢弃特定说话人的噪声信号,而保留与任务相关的语音和音素信息,并在后续层级中出现更高层次的概念表示,此外还展示了深度学习在不同时刻从输入中提取任务相关特征,以实现不变语音识别的能力。
Mar, 2020
本文提出了一种深度学习的体系结构,用于基于轮询槽位的语音问答系统中的语义解码器组件,该语义解码器利用分布式语义表示学习来克服显式去词汇化的限制,通过使用卷积神经网络和长短时记忆网络对句子和上下文表示进行建模,并基于 DSTC2 和 In-car 数据集,对模型进行了实验验证。
Oct, 2016
本研究通过使用共享词汇,介绍了一种实现基于 GPT-2 的端到端对话系统中对话对齐的方法,包括训练实例加权、对齐特定损失和附加调节等技术,通过在 MultiWOZ 数据集上比较不同的对齐技术,我们证明这三种方法都比基准产生出更好对齐的结果,并得到了自动化和人工评估指标的确认。
Nov, 2023
本研究通过使用预先训练的深度学习模型提取的语音嵌入,探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统,本研究在多个传统分类器上获得了 12.08%、28.71%、37.9%的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。
Jun, 2023