填充词检测与分类：一个数据集和基准

Mar, 2022

填充词检测与分类：一个数据集和基准

Filler Word Detection and Classification: A Dataset and Benchmark

Ge Zhu, Juan-Pablo Caceres, Justin Salamon

TL;DR本文提出了一个基于 VAD 和 ASR 识别填充词的管道，并利用分类器区分不同类型，使用 PodcastFillers 数据集验证其有效性，最终成果为一个基准用于未来相关研究。

Abstract

filler words such as `uh' or `um' are sounds or words people use to signal they are pausing to think. Finding and removing filler words from recordings is a common and tedious task in media editing. Automatically

filler words podcastfillers asr classifier benchmark

发现论文，激发创造

填充物对话语文本表示的重要性

本文研究填充语在口语理解任务中的作用，并探究其通过深度上下文嵌入的代表性，以及在模拟口语和预测发言者立场和表达信心等两个下游任务中的应用表现。

Sep, 2020

什么让一个停顿好？探究填充语的转折效应

本文使用 Voice Activity Projection 模型来分析 filled pauses 的作用，结果表明，filled pauses 确实具有转换保持作用，但其作用可能不如其他提示因素强烈，同时，filler 的韵律属性和位置对 turn-hold 概率有显着影响，并且，在这方面，“uh” 和 “um” 之间没有区别。

May, 2023

口语理解中的填充语：计算和心理语言学角度

本文综述了关于口语交流中的中断，即不流畅现象的研究视角，从心理学和语言学理论、其在自动语音识别和口语交流理解系统中的注释和考虑，到最后从生成的角度进行研究，旨在为 SLU 和对话 AI 社区提供一种可行的途径，讨论当前在该领域中面临的趋势和挑战。

Jan, 2023

融合语言学知识的实证研究：个性化自然语音合成中的充填式停顿

本研究旨在探讨基于语言知识的个性化自发性语音合成，着重针对充满话语不流畅的填充停顿进行个性化处理，通过开发一个基于多说话者语料库训练的非个性化外部填充停顿预测器的语音合成方法进行比较评估，证明了填充停顿时态与词汇的交错对自然度和个性化的必要性。

Oct, 2022

SEP-28k：面向带口吃者的播客口吃事件检测数据集

本研究介绍了一个包含超过 28k 个剪辑的数据集，用于自动检测语言中的口吃事件，并通过将其用于声学模型的训练演示了数据集的有效性。

Feb, 2021

利用声学语言特征和先行技术进行智能语音分段

研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题，在基准测试中平均提高了 9.8％的分割 - F0.5 分数，该方法适用于多种语言，可显著提高机器翻译 BLEU 得分约 1.05 个点。

Oct, 2022

基于 Transformer 的长篇口述流式标点

本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法，并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题，提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数，适用于机器翻译领域。

Oct, 2022

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

发现发音障碍语音中的不适当停顿的方法与规模庞大的语音识别技术

通过使用自动语音识别 (ASR) 模型将语音转换为带有暂停标签的文本，我们在发音障碍患者的语音中扩展了一个大规模的语音识别模型，实现了对不恰当暂停的检测，该方法通过与言语治疗专家合作建立标注标准以及设计任务来提高检测效果，并引入了一个针对该任务的评估指标来评价结果。

Feb, 2024

非流畅语音 -- 单说者会话语音数据集与言语表情

研究表明，非语言语音如笑声、叹息、结巴等虽不直接提供词汇含义，但其提供的语义和语用上下文对理解其间的讽刺等有重要作用。本研究提出了 DisfluencySpeech，一个以真实对话模拟形式重现 Switchboard-1 电话语音语料库中出色演讲的英语语音数据集，为开发能够预测性地从文本中合成非语言语音的 TTS 模型提供了帮助。

Jun, 2024