具有强鲁棒性的跨领域与发顺变检测:模式匹配网络
本研究提出了一种名为自相关神经网络 (ACNN) 的自动语音紊乱检测模型,其使用卷积神经网络 (CNN) 结合自相关操作,从而能够更好地捕捉修复性语音的相关依赖关系,实验表明,ACNN 模型在语音紊乱检测任务中的性能要优于传统的 CNN 模型,能够提高 5% 的 f-score。
Aug, 2018
本文提出了一种利用双向 LSTM 神经网络进行自修复检测的方法,并使用模式匹配特征来降低对于词汇量的敏感度,提高了模型的性能。实验结果表明,在 Switchboard 语料库中,模型在标准的自修复检测任务和纠正检测任务中均表现出了出色的性能,特别是将非重复性的自修复鉴别效果提升明显。
Apr, 2016
本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构,通过使用文本和声学模态之间的多模态动态融合网络,在个体话语中进行语调检测,结果表明在英语 Switchboard 上,我们的模型实现了最先进的效果,并且在文献中优于以前的单模态和多模态系统。
Nov, 2022
本文提出一种多任务基于 LSTM 的模型,用于增量检测口吃结构,可以连接到任何组件以进行增量解释,或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统,并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异,同时采用较简单的架构。为了测试模型的泛化潜力,我们在没有任何附加训练的情况下,在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力,并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。
Oct, 2018
本文提出了一种基于自监督学习的方法,利用大量未标注语音和文本提示进行预训练,然后再进行有人工评分的微调,以更好地评估语音流畅性 / 不流畅性。实验结果表明,该方法在 Pearson 相关系数方面优于基线系统,并且通过消融实验来更好地理解音素和韵律因素在预训练阶段的贡献。
May, 2023
本文针对训练数据短缺的问题,提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练,并利用有标注的训练数据进行微调的方法,达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时,我们的方法可将误差降低 21%。
Aug, 2019
本论文提出了一种自发言语转录中的 “LSTM 噪声信道模型” 来检测非流畅性,其中使用了 NCM 生成 n 最佳分析,并使用 LSTM 语言模型,及其他功能,用于鉴别最合理的分析,证明使用 LSTM 语言模型在噪声通道识别的重排过程中提高了非流畅性检测的最新技术。
Aug, 2018
本文提出了一种无监督学习的方法用于发现语言中的断续性,该方法使用廉价的无标注文本语料库,并借鉴了 Noisy Student Training 和上下文化词嵌入的思路,在英语 Switchboard 测试集上达到了与有监督系统竞争的效果。
Oct, 2020
探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性,并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能,该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。
Sep, 2020
本文提出了一种新颖的检测漫游症的体系结构,结合了上下文信息和依存树捕获的长距离结构化信息,在英文 Switchboard 上实现了最先进的结果,明显优于现有技术。
Mar, 2022