在线音视频会议转录技术进展

Dec, 2019

Advances in Online Audio-Visual Meeting Transcription

Takuya Yoshioka, Igor Abramovski, Cem Aksoylar, Zhuo Chen, Moshe David...

TL;DR本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Abstract

This paper describes a system that generates speaker-annotated transcripts of meetings by using a microphone array and a 360-degree camera. The hallmark of the system is its ability to handle overlapped speech, w

speech separation speaker diarization microphone array 360-degree camera meeting transcription

发现论文，激发创造

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

现实世界会议的音视频发言人分离技术

该论文利用周围视视频和单通道或多通道音频生成强大的发言人识别输出，在真实世界会议中展示出优异的定量和定性性能，并探究了在可用多通道音频的情况下，通过集束成形和视频协同使用，进一步提高性能的方法。

Jun, 2019

多方会议中说话人归属的自动语音识别的比较研究

对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Mar, 2022

常见在线说话者对话方法综述

在线说话者辨识提供了 “谁何时说话” 的答案，可用于完成音频转录和后续处理步骤；本文概述了在线说话者辨识的历史、训练与评估数据集，详细讨论了在线辨识方法与系统，并提出了该领域需要未来研究解决的挑战。

Jun, 2024

DiariST: 带有说话者分离的流式语音译文

该论文提出了 DiariST，第一个基于神经传感器的流式语音翻译和说话人分离解决方案，它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量，通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方法，实现了较强的 ST 和 SD 能力，并为此推出了离线基线系统和评估代码。

Sep, 2023

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统

该研究提出将多通道和 U 型网络模型相结合，利用并行和远场声学的优势，在说话人识别系统中实现远场重叠语音检测，并探索了三种说话人嵌入方法，最终取得了最佳性能。

Feb, 2022

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

USTC-Ximalaya 系统在 ICASSP2022 多通道多方会议转录（M2MeT）挑战中的应用

在多频道多方会议转录挑战中，我们提出了两种改进目标说话人语音活动检测技术，能够处理高重叠率，重音和嘈杂环境中的多人对话，并展示了我们的系统与经典聚类算法相比，在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。

Feb, 2022

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023