关注意料之外的信息：利用韵律创新进行断句检测

ACLApr, 2019

关注意料之外的信息：利用韵律创新进行断句检测

Giving Attention to the Unexpected: Using Prosody Innovations in Disfluency Detection

Vicky Zayats, Mari Ostendorf

TL;DR本文介绍了一种新方法来提取基于文本的声学提示，并引入文本分布预测来提取矢量 z - 分数特征（创新），对比不同融合技术的早期和晚期融合模型，并比高准确率的仅文本模型取得了更高精度。

Abstract

disfluencies in spontaneous speech are known to be associated with prosodic disruptions. However, most algorithms for disfluency detection use only word transcripts. Integrating prosodic cues has proved difficult

disfluencies spontaneous speech prosodic disruptions acoustic-prosodic cues text-based distributional prediction

发现论文，激发创造

一种新的多模态动态融合网络用于口语话语中的干扰检测

本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构，通过使用文本和声学模态之间的多模态动态融合网络，在个体话语中进行语调检测，结果表明在英语 Switchboard 上，我们的模型实现了最先进的效果，并且在文献中优于以前的单模态和多模态系统。

Nov, 2022

运用韵律注意力和蒸馏技术提高端到端 SLU 性能

提出了基于韵律注意力的 End-to-End SLU 模型和基于韵律蒸馏的声学编码器模型，通过利用韵律信息进一步改善意图分类任务表现。

May, 2023

语音解析：一种神经方法用于集成词汇和声学 - 韵律信息

本文中，我们提出了一个模型，该模型使用卷积神经网络对能量和音高轨迹进行耦合，并使用基于注意力机制的循环神经网络，接受文本和韵律特征，并结合转录文本和声学 - 韵律特征，以自动解析口语话语，并发现不同类型的声学 - 韵律特征都有助于解析，对比一个强文本基线，该模型取得了显著的改进。错误分析表明，声学 - 韵律特征的主要优点在于有误流畅度的句子，附加决策得到最大的改进，文本转录错误掩盖了音韵的改进。

Apr, 2017

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

基于韵律的语音自动分句和主题划分

探究在语音数据中使用音韵学信息（从语音的时间和旋律中获得的信息）来实现句子和主题单元的分割，并将其与基于单词的方法相结合，取得了与基于单词的统计语言模型相当甚至更好的性能，而且需要较少的训练数据和手动标签。

Jun, 2000

非母语流畅度评分的音素和韵律感知自监督学习方法

本文提出了一种基于自监督学习的方法，利用大量未标注语音和文本提示进行预训练，然后再进行有人工评分的微调，以更好地评估语音流畅性 / 不流畅性。实验结果表明，该方法在 Pearson 相关系数方面优于基线系统，并且通过消融实验来更好地理解音素和韵律因素在预训练阶段的贡献。

May, 2023

对话系统中面向领域通用口语断续检测的多任务学习

本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Oct, 2018

利用 wav2vec 2.0 检测口吃治疗中的语音障碍

通过使用最新的波形神经网络技术（wav2vec 2.0）并结合多任务学习，对一个英文语料库中的口吃病识别进行了研究，并在语音识别技术和口吃治疗领域有重要应用。

Apr, 2022

缺失鲁棒性的视觉增强多模态语篇错流检测

现有的语音故障检测技术只依赖于声学数据，本研究提出了一种实用的多模态故障检测方法，利用可用的视频数据与音频结合。我们策划了一个音频 - 视觉数据集，并提出了一种新颖的融合技术，使用权值共享的模态不可知编码器来学习时态和语义上下文。我们的可靠设计适应了视频模态在推断过程中有时可能丢失的现实场景。当两种模态始终可用时，我们还提供了备选融合策略。在五个故障检测任务的实验中，我们的统一多模态方法明显优于仅音频的单模态方法，当视频和音频模态始终可用时，平均绝对改进率为 10%（即百分点增加 10%），即使在一半的样本中视频模态丢失，仍然有 7% 的改进。

Jun, 2024

语音中的自闭症识别 — 综述

通过分析来自生物医学、心理学和自然语言处理领域的研究，我们寻找能够指示自闭症的语言、韵律和声学线索。此调查涵盖了自闭症的定义、可能影响正确诊断的共病疾病，以及诸如语言流畅性、韵律特征、不流畅性和说话速度等观察结果。我们还介绍了基于词汇的方法，并描述了对音频数据和文本的机器学习和基于转换器的方法。最后，我们得出结论，目前已有大量研究，但女性患者的研究仍然非常有限，而且大多数自然语言处理研究侧重于传统的机器学习方法，而非在这一领域有潜力的转换器。另外，我们未能找到将音频和文本特征结合起来的研究。

Feb, 2024