填充词检测与分类:一个数据集和基准
本文使用 Voice Activity Projection 模型来分析 filled pauses 的作用,结果表明,filled pauses 确实具有转换保持作用,但其作用可能不如其他提示因素强烈,同时,filler 的韵律属性和位置对 turn-hold 概率有显着影响,并且,在这方面,“uh” 和 “um” 之间没有区别。
May, 2023
本文综述了关于口语交流中的中断,即不流畅现象的研究视角,从心理学和语言学理论、其在自动语音识别和口语交流理解系统中的注释和考虑,到最后从生成的角度进行研究,旨在为 SLU 和对话 AI 社区提供一种可行的途径,讨论当前在该领域中面临的趋势和挑战。
Jan, 2023
本研究旨在探讨基于语言知识的个性化自发性语音合成,着重针对充满话语不流畅的填充停顿进行个性化处理,通过开发一个基于多说话者语料库训练的非个性化外部填充停顿预测器的语音合成方法进行比较评估,证明了填充停顿时态与词汇的交错对自然度和个性化的必要性。
Oct, 2022
本研究介绍了一个包含超过 28k 个剪辑的数据集,用于自动检测语言中的口吃事件,并通过将其用于声学模型的训练演示了数据集的有效性。
Feb, 2021
研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题,在基准测试中平均提高了 9.8%的分割 - F0.5 分数,该方法适用于多种语言,可显著提高机器翻译 BLEU 得分约 1.05 个点。
Oct, 2022
本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法,并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题,提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数,适用于机器翻译领域。
Oct, 2022
说话不流畅现象,如填充式停顿或重复,是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用,发现基于声学的方法在性能上超过语言方法,同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。
Nov, 2023
通过使用自动语音识别 (ASR) 模型将语音转换为带有暂停标签的文本,我们在发音障碍患者的语音中扩展了一个大规模的语音识别模型,实现了对不恰当暂停的检测,该方法通过与言语治疗专家合作建立标注标准以及设计任务来提高检测效果,并引入了一个针对该任务的评估指标来评价结果。
Feb, 2024
研究表明,非语言语音如笑声、叹息、结巴等虽不直接提供词汇含义,但其提供的语义和语用上下文对理解其间的讽刺等有重要作用。本研究提出了 DisfluencySpeech,一个以真实对话模拟形式重现 Switchboard-1 电话语音语料库中出色演讲的英语语音数据集,为开发能够预测性地从文本中合成非语言语音的 TTS 模型提供了帮助。
Jun, 2024