本文提出了一种神经方法,用于远程语音识别(DSR),它能够在没有隔离信号的监督情况下,同时分离和解麦克风混合的语音,并没有未知数量的活跃说话者。
Jun, 2024
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021
使用大型语言模型进行后处理的讲话者辨析能够显著提高辨别的准确性,并研发了能够适用于不同自动语音识别工具的综合模型。
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。
Oct, 2023
对在多方会议场景下的口语识别(SA-ASR)中的发言人进行的比较研究中,通过三种不同的方法进行了评估。结果表明,引入单词级别的划分模型可以有效降低时戳对准错误。同时,采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。
Mar, 2022
自动语音识别(ASR)是计算语言学的一个关键领域,主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面,使用监督学习训练改善语音识别的神经网络,并设计对声音信号进行准确对齐的新型反向传播方法。
本文提出了一种最先进的单声道多说话者端到端自动语音识别模型,通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能,实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。
Nov, 2018
本文介绍了如何使用图像识别中的归因方法,结合音频数据,帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation(LRP)、Saliency Maps 和 Shapley Additive Explanations(SHAP)这三种可视化技术,展示了归因方法的优势和应用前景,包括在检测对抗性样本方面。
Feb, 2022
该论文提出了一种基于中间地带的方法来处理多说话者语音识别,该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术,又将混合语音信息直接纳入 ASR 模块,以减轻语音分离器所产生的错误传播,并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。
Jun, 2023
本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习,通过跨媒体蒸馏方法将 Connectionist Temporal Classification(CTC)与逐帧交叉熵损失相结合,以无标注的视频数据来提高效果和速度,并在 LRS2 和 LRS3 数据集上实现了最先进的结果。
Nov, 2019