基于注意机制的无参考度量进行语音识别质量评估，实现高效语料采样和后期编辑

Jan, 2024

基于注意机制的无参考度量进行语音识别质量评估，实现高效语料采样和后期编辑

Word-Level ASR Quality Estimation for Efficient Corpus Sampling and Post-Editing through Analyzing Attentions of a Reference-Free Metric

PDF

Golara Javadi, Kamer Ali Yuksel, Yunsu Kim, Thiago Castro Ferreira, Mohamed Al-Badrashiny

TL;DR在自动语音识别（ASR）领域，本文介绍和评估了质量估计（QE）指标作为提高 ASR 系统中可解释人工智能（XAI）的一种新工具。通过实验和分析，探索了 NoRefER（无参考错误率）指标在识别单词级别错误方面的能力，以帮助后期编辑 ASR 假设的改进。研究还扩展到了 NoRefER 在构建数据集过程中的实用性，展示了它在增加具有深入注释的数据集方面的有效性。对 NoRefER 的诊断方面进行了检查，揭示了它提供有关模型行为和决策模式的有价值的见解的能力。这对于优先处理后期编辑工作流程和微调 ASR 模型非常有益。研究结果表明 NoRefER 不仅仅是一个错误检测工具，还是提高 ASR 系统透明性、效率和效果的全面框架。为了保证结果的可复现性，本研究的所有源代码都公开可用。

Abstract

In the realm of automatic speech recognition (ASR), the quest for models that not only perform with high accuracy but also offer transparency in their decision-making processes is crucial. The potential of qualit

automatic speech recognition quality estimation metrics explainable artificial intelligence norefer transparency

发现论文，激发创造

基于半监督语言模型微调和对比学习的自动语音识别无参考质量度量

本文介绍了一种名为 NoRefER 的新型无参考质量评估指标，其采用对比学习和连体网络结构，自我监督地精调跨语言语言模型以进行自动语音识别假设的点对排序以评估质量。半监督版本还使用参考数据集来改善对潜在错误样本的选择。实验结果表明，NoRefER 与基于参考的指标高度相关，具有不错的无参考 ASR 评估或 A / B 测试潜力。

Jun, 2023

基于多语言自监督对比学习的自动语音识别无参考质量度量

本文提出了一种多语言无参考质量度量方法，使用预先训练的语言模型采用对比学习的自我监督学习方式进行微调，针对自动语音识别模型提出了一个评估标准，该评估标准可以在没有参考标记的情况下比较不同自动语音识别模型的性能，并在减少识别错误和提高性能方面效果显著。

Jun, 2023

质量估计之穷人版：在没有参考文本的情况下预测基于参考文本的机器翻译度量

本文提出了一种基于预训练模型的机器翻译质量评估方法，通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练；实验结果表明，该方法在无需参考标准情况下依然可以上可接受的精度，但也存在一定的局限性。

Jan, 2023

重新思考基于人工判断的机器翻译单词质量评估

该论文旨在通过自监督的预训练方法以及标记修正策略，提高机器翻译的质量估计，避免传统质量评价准则的局限性，并通过人类专家的直接评注来构建不需要参考文献的数据集 HJQE 的实验结果证实了我们的方法的有效性。

Sep, 2022

实用自动语音识别与后处理：可解释错误基准指南的呼吁

通过提出一个 Speech 和 Text 综合考虑的 Error Explainable Benchmark 数据集，我们能够更全面地了解 ASR 模型的不足之处，消除系统的弱点，从而提高用户体验。

Jan, 2024

基于 $k$ 最近邻和自动评估的质量估计与特定模型质量估计

我们提出了一种模型特定的无监督质量评估方法，称为 $k$NN-QE，该方法从机器翻译模型的训练数据中提取信息，并使用 $k$ 个最近邻进行评估。我们还提出了一种使用基于参考的度量标准的质量评估自动方法，并通过详细分析得出结论，MetricX-23 是最适合该任务的方法。

Apr, 2024

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

作为基础提取的翻译错误检测

使用先进的特征归属方法对最新的品质预估模型进行了探讨，发现训练有素的句子级别品质估测模型可以用于检测翻译错误，并提出了一种新的半监督词级别品质估测方法。该研究还将品质估测任务提出作为一个用于评估特征归属的新基准。

Aug, 2021

利用语义距离度量评估用户对语音识别系统质量的感知

本研究提出使用使用预训练语言模型提取参考和假设的语义向量之间的距离来衡量 ASR 输出假设的语义正确性，实验结果表明，SemDist 比 WER 更能与用户感知相一致，并且比 WER 更能与下游的自然语言理解任务相一致。

Oct, 2021

机器翻译质量估计的实用视角

本研究旨在提高机器翻译句子水平的翻译编辑速率预测，提出了句子水平的质量分类（QC）观点，以优化召回率，并通过二进制分类器的使用可将后编辑工作量减少至 50-60％。

May, 2020