深度神经网络的无监督音频和语义训练模型

Dec, 2023

深度神经网络的无监督音频和语义训练模型

Unsupervised Auditory and Semantic Entrainment Models with Deep Neural Networks

Jay Kejriwal, Stefan Benus, Lina M. Rojas-Barahona

TL;DR应用深度学习框架从文本特征中提取有意义的表示，研究了语义同步在人际交流和人机交互中的评估及其与声学特征之间的关联性。

Abstract

Speakers tend to engage in adaptive behavior, known as entrainment, when they become similar to their interlocutor in various aspects of speaking. We present an unsupervised deep learning framework that derives m

entrainment deep learning framework semantic features auditory embeddings acoustic features

发现论文，激发创造

使用深度神经网络（DNN）的听觉和语义同步关系

该研究利用 BERT 和 TRILL 向量等先进技术提取特征，测量两种不同语言对话中回合间的语义和听觉相似性，并发现人们更倾向于在语义特征上同调，此外，语义和听觉语言特征的同调程度呈正相关，该研究的发现有助于实施在人机交互中的同调机制。

Dec, 2023

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

将语义引入语音编码器

本文提出了一种无监督的任务无关方法，将大型语言模型中的语义信息融合进入自监督语音编码器，提高了其在意图分类，名称实体识别及槽填充等方面的性能，使其达到了有监督方法同等的效果，为已有的语音编码器的无监督实现提供了可行性证明。

Nov, 2022

利用语义信息和音频文本蒸馏模型实现高效的自监督情绪识别

本文旨在将 HuBERT 等 self-supervised learning 的模型应用在 SER 系统中，并通过分析模型的每一层得出更好的情感识别效果，提出基于 audio-textual distilled SSL 的模型实现更为高效的情感识别。

May, 2023

透过听力引导语义：口语句子嵌入的无监督学习

本研究通过转换语音信号为由声学单元发现生成的隐藏单元并提出了 WavEmbed，一个多模态连续自编码器，用于预测从语音传感器中提取的隐藏单元的密集嵌入，其次通过知识蒸馏提出 S-HuBERT。最佳性能的模型与人类判断之间的相关性中等（0.5~0.6），且无需依赖任何标签或转录，这些模型还可以轻松扩展以利用语音的文本转录来学习更好的嵌入。

Oct, 2022

注意力和自监督语音嵌入对非语义语音任务的影响

人类情绪理解对于推动对话技术走向主流至关重要。我们视语音情绪理解为一项感知任务，这是一个更加现实的设置。通过在 ACM Multimedia 2023 计算跨语音信息挑战（ComParE）中利用其丰富的多语种演讲者数据集和 ' 情感共享 ' 多标签回归目标，我们展示了不同基础模型的训练方案对于超越语音识别等非语义语音任务（例如情绪理解）的效果产生重要影响，尤其是针对多语种演讲者、目标标签的可变性以及回归数据集中的固有不平衡性，我们的结果表明，基于自注意力的轻量级序列模型 HuBERT-Large 相较于报告的基准线有 4.6% 的改进。

Aug, 2023

不变语音识别中的解缠

本研究探讨了深度神经网络在处理时间依赖性信号方面的表现，结果显示语音模型会丢弃特定说话人的噪声信号，而保留与任务相关的语音和音素信息，并在后续层级中出现更高层次的概念表示，此外还展示了深度学习在不同时刻从输入中提取任务相关特征，以实现不变语音识别的能力。

Mar, 2020

利用句子和上下文表示的深度神经模型进行口语理解

本文提出了一种深度学习的体系结构，用于基于轮询槽位的语音问答系统中的语义解码器组件，该语义解码器利用分布式语义表示学习来克服显式去词汇化的限制，通过使用卷积神经网络和长短时记忆网络对句子和上下文表示进行建模，并基于 DSTC2 和 In-car 数据集，对模型进行了实验验证。

Oct, 2016

LEEETs-Dial: 末端对话系统中的语言同步

本研究通过使用共享词汇，介绍了一种实现基于 GPT-2 的端到端对话系统中对话对齐的方法，包括训练实例加权、对齐特定损失和附加调节等技术，通过在 MultiWOZ 数据集上比较不同的对齐技术，我们证明这三种方法都比基准产生出更好对齐的结果，并得到了自动化和人工评估指标的确认。

Nov, 2023

使用说话人表示和自监督上下文嵌入进行口吃检测

本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了 12.08％、28.71％、37.9％的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。

Jun, 2023