完全监督的说话人分离
本文介绍一种基于 d-vectors 的说话者辨识方法,将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合,实现了最新的说话者辨识系统,与传统 i-vector 系统相比,取得了更好的结果。
Oct, 2017
本文介绍了一种基于神经网络的说话人分离技术,将说话人分离问题转化为多标签分类问题,并提出了一个无排列的目标函数来直接最小化分离误差,从而能够更好地处理重叠语音,并通过真实录制的多说话者对话进行领域自适应,最终在模拟语音混合数据集上达到了较好的分离结果。
Sep, 2019
该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型,可以识别对话中的参与者,无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制,解决了联邦学习模型的问题。此外,该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测,从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类,降低了逐帧说话人识别的计算开销。实验结果表明,该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段,该方法显著减少了误检和漏检,并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。
Apr, 2024
提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。
Feb, 2020
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。
Oct, 2023
本文提出了第一种实时、通用且强健的对抗攻击方案,能通过在任意用户的语音输入上添加通用扰动,在线进行万能识别。同时,利用房间脉冲响应 (RIR) 对声音失真进行建模,提高攻击的鲁棒性。在公共数据集上的实验表明,这种攻击的成功率高达 90% 以上,并且攻击速度比当代非通用攻击快 100 倍。
Mar, 2020
本研究通过将发言者信息嵌入到端到端系统中,提高了发言者辨识能力,并保持了处理语音重叠的优势,通过多种方法将这些嵌入与声学特征相结合。同时,对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估,结果表明相对于基准端到端模型,发现有了显著的降低对话错误率,相对提高了 10.78%。
Jul, 2024