现代化开放集语言识别
我们实现了一种基于 MFCC 和音高特征的 TDNN 模型、通过对 softmax 输出进行置信度阈值设置以及使用 LDA 和 pLDA 来学习对新的未知语言进行分类的开放式口语识别系统,该系统在已训练语言上达到了 91.76% 的准确率,并能够动态适应未知语言。
Aug, 2023
本文介绍一种基于卷积神经网络(CNN)和长短时记忆(LSTM)模型的开集检测方法,该方法有效地应用于 LoRa、无线 WiFi 和有线 WiFi 数据集,提高了 Area Under the Precision-Recall Curve,以便成功监控和控制无线设备的未授权网络访问。
May, 2023
该研究论文研究了语言识别的问题,使用了基于注意力机制和神经网络的方法,使用频谱图像作为输入以及原始波形作为特征,对六种语言进行了分类,获得了高精度的结果。
Oct, 2019
本文针对开放式说话人识别中的虚警问题,提出了一种可行的解决方案:采用基于神经网络的语音识别系统进行评价,并通过评价结果证明,与以往研究不同,常用的自适应分数标准化并不能保证提高此项任务的性能,然而,得分校准和得分融合等其他常见技术则可以显著提高开放式说话人识别的性能。
Jun, 2023
视觉语言模型 (Vision-Language Models, VLMs) 不是开放集模型,因为它们通过有限的查询集引入了闭合集的假设,使其容易受到开放集条件的影响。我们系统地评估了 VLMs 在开放集识别方面的表现,发现它们经常错误地分类不在查询集中的对象,导致在高召回率和高精度调优时出现令人担忧的低精度。我们表明,简单增加查询集的大小以包含更多类别并不能解决这个问题,反而会导致任务性能和开放集性能下降。我们为 VLMs 时代建立了开放集问题的修订定义,定义了一个新的基准和评估协议,以促进在这一重要领域的标准化评估和研究,并在一系列 VLM 分类器和物体检测器上评估了有前景的基线方法,基于预测不确定性和专用负向嵌入。
Mar, 2024
该论文提出了基于图像领域解决 LID 问题的模型,使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析,并在广泛的实验中证明了模型的应用性,能够轻松地扩展到以前未知的语言,同时保持其分类准确性。
Aug, 2017
使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练,并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型,分别在印度语种中取得 9.66% ~ 27.24%不等的相对准确率提升。
Jan, 2022
本文针对未知说话人的 “开放式” 说话人识别问题,提出了一种度量学习的方法,该方法使用紧凑的嵌入来表示语音信息,并对最流行的损失函数进行了广泛评估,结果表明该方法优于现有的先进方法。
Mar, 2020