2022 年 NIST 语言识别评估

Feb, 2023

The 2022 NIST Language Recognition Evaluation

Yooyoung Lee, Craig Greenberg, Eliot Godard, Asad A. Butt, Elliot Singer...

TL;DR本文概述与分析了 2022 年美国国家标准与技术研究所进行的最新语言识别评估 (LRE22) 的系统表现，发现使用不同评估条件下 Oromo 和 Tigrinya 较容易识别，而 Xhosa 和 Zulu 则较为困难。此外，当语音时长增加时，系统性能显著提高，但随着时间的增加，性能提高的速度逐渐变慢。

Abstract

In 2022, the U.S. National Institute of Standards and Technology (NIST) conducted the latest language recognition evaluation (LRE) in an ongoing series administered by NIST since 1996 to foster research in language recognition and to measure →

language recognition evaluation state-of-the-art technology african languages system performance speech duration

发现论文，激发创造

NIST SRE'20 CTS 挑战的 I4U 系统描述

该论文介绍了 I4U 团队参加 2020 年 NIST 演讲者识别评估挑战的贡献，该贡献基于来自 8 个研究团队的子系统和子融合系统的融合，并致力于使用共同的开发和验证集，提交时间表和里程碑，最大限度地减少现场试验列表和评分文件格式上的不一致性。

Nov, 2022

XLS-R: 在大规模自监督下进行跨语言语音表示学习

本文介绍了 XLS-R，这是一个基于 Wav2vec 2.0 的用于跨语言语音表示学习的大规模模型，其在 128 种语言的近半百万小时的公开语音音频数据上进行训练，并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。

Nov, 2021

用于口语识别的预训练方法：TalTech 在 OLR 2021 挑战赛中的提交

本文研究了口语语言识别的不同预训练方法，并基于我们在东方语言识别挑战赛 2021 中的提交，参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统，这些模型都包含有前置的预训练网络。

May, 2022

LRSpeech: 极低资源语音合成与识别

本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统，能够在极低资源的情况下支持资料匮乏的语言，并通过三个关键技术来优化模型，包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求，在语音识别方面达到了很好的识别精度，并且需要非常少的训练数据。

Aug, 2020

ICDAR2019 多语言场景文本检测和识别鲁棒性挑战 —RRC-MLT-2019

本文介绍了基于 RRC-MLT-2017 的文本检测和识别竞赛，该竞赛包含一个新的端到端任务、一个现实图像数据集中的额外语言，一个大规模的多语言合成数据集以辅助训练，并提出了一个基线端到端识别方法。该竞赛总共收到了来自研究和工业界的 60 份提交，本文展示了该竞赛的数据集、任务和发现结果。

Jul, 2019

LinCE: 一个用于语言混合评估的集中式基准测试

本文提出了用于语言混合（Code-Switching）的中心化基准测试（LinCE），其中包括四种混音语言对和四个 NLP 任务，包括语言识别，命名实体识别，词性标注和情感分析。LinCE 旨在提高多语言 NLP 建模的可重复性、可比性和准确性。

May, 2020

MSR-86K：一个包含 86,300 小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了 MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由 YouTube 上公开可访问的视频转录数据组成，包括 15 种语言和总共 86300 小时的 ASR 数据。同时，该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024

XTREME-R: 朝着更具挑战性和细致多语言评估迈进

本文研究运用机器学习技术进行多语言自然语言处理的现状，通过对 XTREME-R 的介绍和使用提出跨语言转移学习的方法，并提供一个交互式公共排行榜和 XTREME-R 的代码以拓展其应用领域。

Apr, 2021

Earnings-22：野外口音实践基准

本文介绍了一个收集英语盈利电话会议的语料库，旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准，通过 4 个商业模型的比较，研究了地区口音对模型表现的影响，以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。

Mar, 2022

LoRA-Whisper: 参数高效且可扩展的多语言语音识别

本文提出了 LoRA-Whisper 模型，通过将 LoRA 矩阵融入 Whisper，有效减轻多语种自动语音识别中的语言干扰，并通过利用 LoRA 和语言之间的相似性，在新语种上取得更好的性能，同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中，我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。

Jun, 2024