SubER:字幕质量自动评估指标
研究字幕分割在使用不同于参考文本的输出时的评估方法,提出一种基于边界上的 BLEU 得分的字幕分割得分 $Sigma$。通过边界投影方法,将输出错误的假设映射到真实参考上,比较已有指标和 $Sigma$。研究结果表明,所有指标都能奖励高质量输出,但系统排名取决于每个指标对错误类型的敏感度,$Sigma$ 是一种有前途的分割候选者,但它与其他分割指标的可靠性仍需通过与人类判断相关性的验证来证实。
May, 2022
本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献,通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对,针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强,实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果,并展示了其在 2020 年版中的潜力。
Oct, 2020
本研究通过在 Bilingual Evaluation Understudy(BLEU)评估技术上进行改进,提出了一种适应人类评估的评估技术,该技术可以考虑包括同义词和词序在内的变化,并且与现有的评估方法相比,有较好的改进和相关性。
Sep, 2015
本研究提出了一种利用多模态方法将现有的语音翻译资料转换为符合 SubST 准则的字幕翻译资料的方法。通过训练一个基于音频和文本结合的分段模型,实现高质量的自动分段,并通过对比实验验证了该方法的有效性。
Sep, 2022
本研究提出了 SeMaScore,它使用基于片段的映射和评分算法生成,并作为自动语音识别任务的评估指标。SeMaScore 利用错误率和更稳健的相似性得分,实验证明我们算法的评分生成优于现有的 BERTscore。我们的实验结果显示 SeMaScore 与专家人工评估、信噪比水平和其他自然语言指标相符。我们在计算速度上比 BERTscore 提高了 41 倍。总体而言,我们证明 SeMaScore 在涉及非典型语音模式的真实世界情况下是一种更可靠的评估指标。
Jan, 2024
该研究提出了一种称为子词分节机器翻译(SSMT)的新方法,通过在单个可训练模型中联合学习目标句子单词的分割和目标句子生成,在生成翻译过程中采用动态解码算法进行细分操作,实验结果表明,SSMT 能提高粘着语言的 chrF 分数以及对于评估形态组成通用性构建的测试集的鲁棒性也更强。
May, 2023
从机器翻译系统开发中,人类评估一直是一个关键组成部分,并在文本翻译研究中受到了广泛关注。然而,在人类评估语音翻译方面,之前的研究工作很少,这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会(IWSLT 2023)中几项共享任务的结果进行全面人类评估,填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论:1) 提出的评估策略稳健,与其他类型的人类判断得分相关性很好;2) 自动指标通常与直接评估得分相关性较好,但不总是如此;以及 3) 虽然通过重新分割步骤引入了分割噪声,但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究,我们发布了收集到的人类标注数据。
Jun, 2024
本文使用 BERT 对机器翻译进行度量,实验结果表明我们的度量指标在 WMT-2017 数据集的所有英翻中文语言对中的分段级度量任务中均取得了最先进的性能。
Jul, 2019
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018