关注意料之外的信息:利用韵律创新进行断句检测
本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构,通过使用文本和声学模态之间的多模态动态融合网络,在个体话语中进行语调检测,结果表明在英语 Switchboard 上,我们的模型实现了最先进的效果,并且在文献中优于以前的单模态和多模态系统。
Nov, 2022
提出了基于韵律注意力的 End-to-End SLU 模型和基于韵律蒸馏的声学编码器模型,通过利用韵律信息进一步改善意图分类任务表现。
May, 2023
本文中,我们提出了一个模型,该模型使用卷积神经网络对能量和音高轨迹进行耦合,并使用基于注意力机制的循环神经网络,接受文本和韵律特征,并结合转录文本和声学 - 韵律特征,以自动解析口语话语,并发现不同类型的声学 - 韵律特征都有助于解析,对比一个强文本基线,该模型取得了显著的改进。错误分析表明,声学 - 韵律特征的主要优点在于有误流畅度的句子,附加决策得到最大的改进,文本转录错误掩盖了音韵的改进。
Apr, 2017
说话不流畅现象,如填充式停顿或重复,是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用,发现基于声学的方法在性能上超过语言方法,同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。
Nov, 2023
探究在语音数据中使用音韵学信息(从语音的时间和旋律中获得的信息)来实现句子和主题单元的分割,并将其与基于单词的方法相结合,取得了与基于单词的统计语言模型相当甚至更好的性能,而且需要较少的训练数据和手动标签。
Jun, 2000
本文提出了一种基于自监督学习的方法,利用大量未标注语音和文本提示进行预训练,然后再进行有人工评分的微调,以更好地评估语音流畅性 / 不流畅性。实验结果表明,该方法在 Pearson 相关系数方面优于基线系统,并且通过消融实验来更好地理解音素和韵律因素在预训练阶段的贡献。
May, 2023
本文提出一种多任务基于 LSTM 的模型,用于增量检测口吃结构,可以连接到任何组件以进行增量解释,或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统,并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异,同时采用较简单的架构。为了测试模型的泛化潜力,我们在没有任何附加训练的情况下,在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力,并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。
Oct, 2018
通过使用最新的波形神经网络技术(wav2vec 2.0)并结合多任务学习,对一个英文语料库中的口吃病识别进行了研究,并在语音识别技术和口吃治疗领域有重要应用。
Apr, 2022
现有的语音故障检测技术只依赖于声学数据,本研究提出了一种实用的多模态故障检测方法,利用可用的视频数据与音频结合。我们策划了一个音频 - 视觉数据集,并提出了一种新颖的融合技术,使用权值共享的模态不可知编码器来学习时态和语义上下文。我们的可靠设计适应了视频模态在推断过程中有时可能丢失的现实场景。当两种模态始终可用时,我们还提供了备选融合策略。在五个故障检测任务的实验中,我们的统一多模态方法明显优于仅音频的单模态方法,当视频和音频模态始终可用时,平均绝对改进率为 10%(即百分点增加 10%),即使在一半的样本中视频模态丢失,仍然有 7% 的改进。
Jun, 2024
通过分析来自生物医学、心理学和自然语言处理领域的研究,我们寻找能够指示自闭症的语言、韵律和声学线索。此调查涵盖了自闭症的定义、可能影响正确诊断的共病疾病,以及诸如语言流畅性、韵律特征、不流畅性和说话速度等观察结果。我们还介绍了基于词汇的方法,并描述了对音频数据和文本的机器学习和基于转换器的方法。最后,我们得出结论,目前已有大量研究,但女性患者的研究仍然非常有限,而且大多数自然语言处理研究侧重于传统的机器学习方法,而非在这一领域有潜力的转换器。另外,我们未能找到将音频和文本特征结合起来的研究。
Feb, 2024