SubER：字幕质量自动评估指标

May, 2022

SubER: A Metric for Automatic Evaluation of Subtitle Quality

Patrick Wilken, Panayota Georgakopoulou, Evgeny Matusov

TL;DR本文介绍了解决自动生成字幕质量评估问题的 SubER 度量方法，可综合考虑文本质量、分段及时间轴匹配，经人工评估表明此方法与后编辑准确性和人工评定分数高度相关，优于现有方法。

Abstract

This paper addresses the problem of evaluating the quality of automatically generated subtitles, which includes not only the quality of the machine-transcribed or translated speech, but also the quality of line segmentation and subtitle timing. We propose SubER - a single novel metric based on edit distance with shifts that takes all of these subtitle proper

automatically generated subtitles quality evaluation suber metric human evaluation post-editing scenario

发现论文，激发创造

评估端到端生成系统的字幕分割

研究字幕分割在使用不同于参考文本的输出时的评估方法，提出一种基于边界上的 BLEU 得分的字幕分割得分 $Sigma$。通过边界投影方法，将输出错误的假设映射到真实参考上，比较已有指标和 $Sigma$。研究结果表明，所有指标都能奖励高质量输出，但系统排名取决于每个指标对错误类型的敏感度，$Sigma$ 是一种有前途的分割候选者，但它与其他分割指标的可靠性仍需通过与人类判断相关性的验证来证实。

May, 2022

自动字幕中消除对剧本依赖性的 SBAAM 方法

直接生成的自动字幕模型填补了依赖于中间文件的不足，通过消除对中间转录的依赖，实现了对多语种、多样化环境下的自动字幕新的最佳性能。

May, 2024

学习评估英语之外的翻译：BLEURT 参加 WMT 评估 2020 共享任务

本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献，通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对，针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强，实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果，并展示了其在 2020 年版中的潜力。

Oct, 2020

增强的双语评估助手

本研究通过在 Bilingual Evaluation Understudy（BLEU）评估技术上进行改进，提出了一种适应人类评估的评估技术，该技术可以考虑包括同义词和词序在内的变化，并且与现有的评估方法相比，有较好的改进和相关性。

Sep, 2015

自动化分段 ST 语料库的自动字幕技术解决数据瓶颈问题

本研究提出了一种利用多模态方法将现有的语音翻译资料转换为符合 SubST 准则的字幕翻译资料的方法。通过训练一个基于音频和文本结合的分段模型，实现高质量的自动分段，并通过对比实验验证了该方法的有效性。

Sep, 2022

SeMaScore：一种用于自动语音识别任务的新评估指标

本研究提出了 SeMaScore，它使用基于片段的映射和评分算法生成，并作为自动语音识别任务的评估指标。SeMaScore 利用错误率和更稳健的相似性得分，实验证明我们算法的评分生成优于现有的 BERTscore。我们的实验结果显示 SeMaScore 与专家人工评估、信噪比水平和其他自然语言指标相符。我们在计算速度上比 BERTscore 提高了 41 倍。总体而言，我们证明 SeMaScore 在涉及非典型语音模式的真实世界情况下是一种更可靠的评估指标。

Jan, 2024

Subword 分段机器翻译：统一分段和目标句子生成

该研究提出了一种称为子词分节机器翻译（SSMT）的新方法，通过在单个可训练模型中联合学习目标句子单词的分割和目标句子生成，在生成翻译过程中采用动态解码算法进行细分操作，实验结果表明，SSMT 能提高粘着语言的 chrF 分数以及对于评估形态组成通用性构建的测试集的鲁棒性也更强。

May, 2023

评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及 3) 虽然通过重新分割步骤引入了分割噪声，但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

BERT 回归器用于机器翻译评估

本文使用 BERT 对机器翻译进行度量，实验结果表明我们的度量指标在 WMT-2017 数据集的所有英翻中文语言对中的分段级度量任务中均取得了最先进的性能。

Jul, 2019

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018