- 剧本音视频的讲话人分离
利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。
- 联合语音与重叠检测:多个音频设置和语音领域的基准测试
声活动和重叠演讲检测对于说话人分析是关键的预处理任务。本文提出了一个全面的新绩效基准,用于多种音频设置(单 / 多通道)和语音领域上的不同声活动和重叠演讲检测模型,并展示了联合训练这两项任务的独特架构在降低训练成本的同时能够获得与两个专门的 - 词汇发音者错误更正:利用语言模型进行发音者离话错误更正
本篇论文探讨了使用语言模型的 Speaker diarization second-pass error correction approach 引入词汇信息,可以有效且稳健地提高多个电话数据集上的单词级别 Diarization 错误率( - MM基于圆谐特征的多麦克风会议自动语音分割
本文提出了一种在远距离语音场景下解决语音分割任务,包括 VAD、OSD 和 SCD 的通用框架,使用 CH-DOA 提取的空间特征与标准声学特征相结合,实验证明可以提高分割效果,并且在停用麦克风的情况下仍然具有鲁棒性。
- ACL探索口语理解中有关说话人信息以改进说话人分离
本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法,提出了两个子任务(对话检测和发言者切换检测)来有效地从对话语义中提取讲话者信息,并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本 - 一种用于在线发言人分离的强化学习框架
该研究提出了一种基于强化学习的机器学习框架,用于实时的多扬声器识别和分割,并能应对有限的训练数据和分布环境的挑战。
- 衡量和评估讲话方规整度的方法
本研究提出了一个分析讲话者分离公平性的新协议和评分方法,对性别、年龄、口音及发音时长等因素对讲话者分离结果的影响进行了大规模数据集实验,发现讲话者口音和性别会对分离结果产生偏见。
- 2022 Newsbridge-Telecom SudParis VoxCeleb 说话人识别挑战系统描述
该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题,提出了基于多流方法和熵决策协议的语音活动检测模型,并取得了接近最新成果的效果。
- 走向真实场景的端到端演讲者分离
本文提出了一种吸引子模型的端到端系统,通过训练模拟数据集来适应于野外含有更多发言者的情况,并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的,但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频 - 面向短语对话扬声器辨别挑战的 TSUP 扬声器分离系统
该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果,侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参,最后 SC 系统的表现居于第 - 单 / 多通道端到端神经分离的互相学习
本文介绍了一种可处理单通道和多通道输入的端对端神经对话模型,并提出了一种双向知识传输的方法,既从多通道模型向单通道模型进行知识蒸馏,又从蒸馏后的单通道模型向多通道模型进行微调,实验结果表明该方法相互提高了单通道和多通道演讲者分离的性能。
- 基于 Transformer 的目标说话人语音活动检测及其与端到端神经分离的集成
本文提出了使用变长输入张量的基于 Transformer 的目标说话人语音活动检测(TS-VAD)的说话人分离模型。Transformer 层被应用于说话者维度,以使模型输出对提供给 TS-VAD 模型的说话者资料的顺序不敏感。同时,时间方 - 对话短语说话人分离任务(CSSD):数据集,评估指标和基线
文章介绍了一个新的对话说话人分离任务,即 CSSD 任务,提供了相关数据集和评估指标 CDER,并采用变分贝叶斯 HMM x-vector 系统作为 CSSD 任务的基准模型。
- 无监督说话人分离:对语言,重叠以及参数调整不敏感
本文探讨了一种不依赖于语种特定组件的无监督的演讲者分离技术,该算法具有覆盖感知功能,不需要有关演讲者数量的信息, 并在播客数据上表现出了 79%的纯度得分改进(34%的 F - 分数)。
- 使用全局和局部引力对无限数量的发言人进行在线神经分离
本研究提出了一种新的音频说话人分离方法 --EEND-GLA, 它结合了声源吸引点和无监督聚类,能够在离线和在线推理中对未知数量的讲话人进行说话人分离,实验结果表明其分离效果良好。
- 使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别
提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型,该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别,并提出了一种基于编码 - 解码的说话者嵌入提取器,可以从 - 动态尺度加权多尺度说话人分离
本研究提出基于多尺度解码器的高级多尺度语者分离系统,通过多尺度聚类初始化估计讲话人数和每个尺度的平均发言者表示向量,使用 1-D 卷积神经网络动态决定每个时间步长上每个尺度的重要性,抑制了时间分辨率和发言者表示保真度之间的平衡问题。该系统可 - ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统
该研究提出将多通道和 U 型网络模型相结合,利用并行和远场声学的优势,在说话人识别系统中实现远场重叠语音检测,并探索了三种说话人嵌入方法,最终取得了最佳性能。
- ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多 - 基于 ASR 的端到端神经化分离
本文提出基于 Conformer 的端到端神经口头日记(EEND)模型,该模型利用从自动语音识别(ASR)模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合,采用新的自注意力机制来建立鲁棒的说话人表示,并使用多任务学习来最小化