走向真实场景的端到端演讲者分离
该论文提出了一种基于编码器 - 解码器的吸引因子计算方法,该方法可灵活地生成不同数量的吸引因子,用以支持不同数量的说话人,并利用传统的自我注意力端到端神经说话人分离网络(SA-EEND)来提取讲话嵌入序列和生成说话人活动,实验结果表明,相对于传统的基于聚类的说话人分离模型和端到端模型,该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。
May, 2020
我们提出了具有辅助网络的 Word 级端到端神经化登记(WEEND),这是一种多任务学习算法,能够在相同的神经架构中同时执行端到端自动语音识别(ASR)和说话人登记。实验结果表明,WEEND 在所有 2 个说话人短格式场景上优于基线系统,并且具有推广到 5 分钟音频长度的能力。尽管 3 个或更多说话人的对话更困难,但我们发现通过足够的领域内训练数据,WEEND 有潜力提供高质量的登记文本。
Sep, 2023
本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性,它创建了 AVA 音频 - 视觉扬声器分离(AVA-AVD)数据集和一种称为 AVR-Net 的新方法,通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。
Nov, 2021
本研究提出了一种新的音频说话人分离方法 --EEND-GLA, 它结合了声源吸引点和无监督聚类,能够在离线和在线推理中对未知数量的讲话人进行说话人分离,实验结果表明其分离效果良好。
Jun, 2022
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。
Oct, 2023
提出了一种基于端到端模型的说话人分割方法,直接进行说话人划分,通过多标签分类解决此任务,同时可用于语音活动检测和重叠语音检测,且在多个数据集上都有显著的表现提升。
Apr, 2021
提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音,其中将混合信号的时频表示投影到高维嵌入空间,并为每个说话者创建一个参考点吸引器,并将说话者的嵌入向量强制聚集到其相应的吸引器点附近,该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。
Jul, 2017
本文提出了一种最先进的单声道多说话者端到端自动语音识别模型,通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能,实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。
Nov, 2018
该论文利用周围视视频和单通道或多通道音频生成强大的发言人识别输出,在真实世界会议中展示出优异的定量和定性性能,并探究了在可用多通道音频的情况下,通过集束成形和视频协同使用,进一步提高性能的方法。
Jun, 2019
本文提出了使用变长输入张量的基于 Transformer 的目标说话人语音活动检测(TS-VAD)的说话人分离模型。Transformer 层被应用于说话者维度,以使模型输出对提供给 TS-VAD 模型的说话者资料的顺序不敏感。同时,时间方面的连续层也被加入其中,以便捕捉输入语音信号的时间和跨说话者之间的相关性。实验结果显示,使用跨说话者建模的 Transformer 能够将 TS-VAD 的错误率降低 11.3%,在 VoxConverse 数据集上取得 4.57%的最新最佳效果;也将 SOTA DER 减少了 6.9%。
Aug, 2022