现代化开放集语言识别

May, 2022

Modernizing Open-Set Speech Language Identification

Mustafa Eyceoz, Justin Lee, Homayoon Beigi

TL;DR本文探究将现代语音识别方法应用于开放识别模型的可行性以及两种不同识别方法的性能比较。

Abstract

While most modern speech language identification methods are closed-set, we want to see if they can be modified and adapted for the open-set problem. When switching to the →

language identification open-set problem closed-set approach tdnn crnn

发现论文，激发创造

健壮的开放式口语语种识别和 CU MultiLang 数据集

我们实现了一种基于 MFCC 和音高特征的 TDNN 模型、通过对 softmax 输出进行置信度阈值设置以及使用 LDA 和 pLDA 来学习对新的未知语言进行分类的开放式口语识别系统，该系统在已训练语言上达到了 91.76% 的准确率，并能够动态适应未知语言。

Aug, 2023

利用时延神经网络进行自动语音语言识别

本研究构建并训练了一种基于自动语音识别技术的语言识别系统，可自动识别阿拉伯语、西班牙语、法语和土耳其语，并通过投票方式进行预测，准确率很高。

May, 2022

HiNoVa: 一种用于自动化射频设备认证的新型开放集检测方法

本文介绍一种基于卷积神经网络（CNN）和长短时记忆（LSTM）模型的开集检测方法，该方法有效地应用于 LoRa、无线 WiFi 和有线 WiFi 数据集，提高了 Area Under the Precision-Recall Curve，以便成功监控和控制无线设备的未授权网络访问。

May, 2023

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

开放式人脸识别

本文提出了一种基于开放式协议的人脸识别方法，并对不同的相似性评估策略进行了评估，发现使用 EVM 概率阈值法可以在一个开放式的协议下实现最佳性能。

May, 2017

VoxWatch：基于 VoxCeleb 的开放式说话人识别基准测试

本文针对开放式说话人识别中的虚警问题，提出了一种可行的解决方案：采用基于神经网络的语音识别系统进行评价，并通过评价结果证明，与以往研究不同，常用的自适应分数标准化并不能保证提高此项任务的性能，然而，得分校准和得分融合等其他常见技术则可以显著提高开放式说话人识别的性能。

Jun, 2023

视觉语言模型时代的开放集识别

视觉语言模型 (Vision-Language Models, VLMs) 不是开放集模型，因为它们通过有限的查询集引入了闭合集的假设，使其容易受到开放集条件的影响。我们系统地评估了 VLMs 在开放集识别方面的表现，发现它们经常错误地分类不在查询集中的对象，导致在高召回率和高精度调优时出现令人担忧的低精度。我们表明，简单增加查询集的大小以包含更多类别并不能解决这个问题，反而会导致任务性能和开放集性能下降。我们为 VLMs 时代建立了开放集问题的修订定义，定义了一个新的基准和评估协议，以促进在这一重要领域的标准化评估和研究，并在一系列 VLM 分类器和物体检测器上评估了有前景的基线方法，基于预测不确定性和专用负向嵌入。

Mar, 2024

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型，分别在印度语种中取得 9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

辩护度量学习在说话人识别中的应用

本文针对未知说话人的 “开放式” 说话人识别问题，提出了一种度量学习的方法，该方法使用紧凑的嵌入来表示语音信息，并对最流行的损失函数进行了广泛评估，结果表明该方法优于现有的先进方法。

Mar, 2020