O-1: 使用预先准备好的标注和最佳假设的自我训练

Aug, 2023

O-1: 使用预先准备好的标注和最佳假设的自我训练

O-1: Self-training with Oracle and 1-best Hypothesis

Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi

TL;DR介绍了 O-1，一种新的自我训练目标，用于减少训练偏差，统一训练和评估指标，用于语音识别。O-1 是期望最小贝叶斯风险（EMBR）的一种更快的变体，提升了最佳假设，并可以适应有监督和无监督数据。通过在公开可用的 SpeechStew 数据集和大规模内部数据集上进行识别，证明了我们方法的有效性。O-1 相对于 EMBR 在 SpeechStew 上的性能提升了 80％，相对于 EMBR 相对提高了 43％的桥接效果。在 SpeechStew 的各种数据集上，O-1 相对于 EMBR 实现了 13％至 25％的相对改进，并且在内部数据集的 oracle WER 方面，相对于 EMBR 训练，减少了 12％的相对差距。总体而言，O-1 相对于 EMBR 在 WER 上实现了 9％的相对改进，因此证明了该目标在大规模数据集上的可扩展性。

Abstract

We introduce o-1, a new self-training objective to reduce training bias and unify training and evaluation metrics for speech recognition.

o-1 self-training objective speech recognition embr wer

发现论文，激发创造

端到端语音识别的自训练

本文探讨了自我训练在端到端语音识别中的应用，并展示给出了使用伪标签训练深度学习模型的方法，经过实验证明了该方法可以大幅提高基准模型的准确率，通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性，实验结果表明，在噪声语音环境下，使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型，使字错率（WER）提高了 33.9％；在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8％的差距。

Sep, 2019

通过采样优化语音识别的期望单词误差率

本文介绍了一种对语音识别声学模型进行最优化训练的方法，使用 Monte Carlo 抽样从传统 sMBR 训练的 lattice 中采样路径来优化期望 WER，并在 Google Home 的 2 通道查询识别任务上实验，并相对于经过良好调整的 sMBR 基线获得了 5％的相对 WER 改进。

Jun, 2017

在 Switchboard 基准测试上朝向零 Oracle 词错误率

该研究探讨了在自动语音识别（ASR）研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑，并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案，甚至商业 ASR 系统的 WER 得分也可以低于 5％，研究系统的表现记录下降至 2.3％。此外，还探索了使用标准化评分工具计算 oracle WER 的方法，并比较了短语备选项表示和 utterance/word-level 的结构。最终，使用密集网络和添加字典外单词的方法实现了 0.18％的 oracle WER。

Jun, 2022

文本转 SQL 系统的 N-Best 假设重新排序

该研究使用预训练语言模型和约束解码技术，通过重新排序和重新解析的方式来改进 Text-to-SQL 任务的查询准确性，最终在任务中达到了最高准确率，并提出了查询计划生成方案的启发式模式。

Oct, 2022

端到端自校准框架用于稳健的 NLU 训练

通过引入一种简单而有效的去偏置框架，利用主模型的浅层表示来推导一个偏置模型，并同时训练两个模型，我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性，尽管其简单性，但其在越界测试集上表现不俗，明显优于其他去偏执方法，并且仍然能够提供高性能的内分布结果。

Sep, 2021

自我训练的端到端语音翻译

本文主要探讨了在端到端语音翻译中数据稀缺的问题，并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法，在 MuST-C 英法和英德数据集上达到了领先水平，同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后，通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。

Jun, 2020

基于注意力机制的序列到序列模型最小词错率训练

本文研究了训练注意力机制的序列到序列模型来直接最小化期望的单词错误率，通过实验证明通过 N-best 列表的解码假设比基于模型的采样方法效果更好，相对于基准系统性能提高了 8.2%。

Dec, 2017

IELM：面向预训练语言模型的开放式信息抽取基准测试

本文介绍了一种新的基于预训练语言模型的开放信息抽取基准测试，并证明该基准测试可以通过将预训练语言模型转化为零样本抽取系统，充分检查模型中存在的开放关系信息。

Oct, 2022

一种基于似然比的 E2E 模型领域自适应方法

本研究提出了一种基于上下文偏差和似然比的方法，用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标，在多个跨领域数据集上相对提高了 10％的识别正确率，同时也优化了 8-Best Oracle WER。

Jan, 2022

伪标签优于人工标注

本文介绍了使用自监督学习和半监督学习技术训练强力教师模型来产生高质量伪标签的方法，进而用这些标签来训练语音识别模型，取得了较好的结果。

Mar, 2022