使用朴素贝叶斯分类器评估英印尼输出的质量

Dec, 2013

使用朴素贝叶斯分类器评估英印尼输出的质量

Quality Estimation of English-Hindi Outputs using Naive Bayes Classifier

Rashmi Gupta, Nisheeth Joshi, Iti Mathur

TL;DR本文提出了一种机器翻译质量估计方法，使用从输入句子中提取的特征并结合朴素贝叶斯分类器构建模型，通过训练数据计算每个句子的可能性并用于测试数据的评分和分类。

Abstract

In this paper we present an approach for estimating the quality of machine translation system. There are various methods for estimating the quality of output sentences, but in this paper we focus on Na\"ive Bayes classifier to build model using →

发现论文，激发创造

机器翻译质量估计的实用视角

本研究旨在提高机器翻译句子水平的翻译编辑速率预测，提出了句子水平的质量分类（QC）观点，以优化召回率，并通过二进制分类器的使用可将后编辑工作量减少至50-60％。

May, 2020

跨语言Transformer多语言词级质量评估的探索性分析

本文探讨了以往机器翻译的词汇质量评估模型的局限性，并提出了基于强大的预训练Transformer模型的跨语言通用性的词汇质量评估模型，证明其在跨语言模型训练、零样本/少样本数据归集的情况下，很好地泛化了，并且在实际应用中具有更广泛的应用前景。

May, 2021

作为基础提取的翻译错误检测

使用先进的特征归属方法对最新的品质预估模型进行了探讨，发现训练有素的句子级别品质估测模型可以用于检测翻译错误，并提出了一种新的半监督词级别品质估测方法。该研究还将品质估测任务提出作为一个用于评估特征归属的新基准。

Aug, 2021

基于分类的质量评估：用于实际应用的小型高效模型

我们研究了句子级机器翻译的质量估计(QE)问题，发现传统的基于回归的方法以及基于压缩模型的方法都不能很好地解决实际应用中的问题，而基于分类的方法可以更好地反映他们在实际应用中的性能表现。

Sep, 2021

QUAK：一份用于韩英神经机器翻译的合成质量估计数据集

本文提出QUAK, 是一个自动生成的合成QE数据集（包括三个子数据集），可用于提高机器翻译输出质量的自动预测。该数据集是通过三种相对自由的生成策略产生的，具有良好的可扩展性，已扩展到1.58M到6.58M。对数据集进行统计分析后发现，QUAK-M，P中添加数据可获得显著性能提升。

Sep, 2022

少即是多”：“少样本”质量评估基于语料库过滤提升机器翻译

本文提出了一种基于质量评估的过滤方法，以从伪平行语料库中提取高质量的平行数据，并通过使用过滤后的语料库进行训练，改善了机器翻译系统的性能。该方法在英语-马拉地语、中文-英语和印地语-孟加拉语语言对中表现出了很好的效果，通过迁移学习在仅使用500个印地语-孟加拉语训练实例的情况下，相比基准模型提高了最多0.6个BLEU分数。

Jun, 2023

基于训练数据直接证据的机器翻译文本质量评估

本文研究了使用平行语料库来估计由数据驱动机器翻译系统产生的翻译质量，并展示了该简单直接的方法对机器翻译系统的翻译质量估计具有潜在的应用价值。

Jun, 2023

没有比更好的数据更好的数据：使用质量度量对MT数据进行过滤

使用质量评估（QE）指标过滤训练数据的句子对可以提高翻译质量并减少训练规模一半。

Nov, 2023

从手工特征到LLMs：机器翻译质量估计的简要调查

机器翻译质量评估（MTQE）是实时估计机器翻译文本质量的任务，不需要参考翻译，对机器翻译的发展非常重要。本文综述了质量评估数据集、标注方法、共享任务、方法学、挑战和未来研究方向。

Mar, 2024

基于$k$最近邻和自动评估的质量估计与特定模型质量估计

我们提出了一种模型特定的无监督质量评估方法，称为$k$NN-QE，该方法从机器翻译模型的训练数据中提取信息，并使用$k$个最近邻进行评估。我们还提出了一种使用基于参考的度量标准的质量评估自动方法，并通过详细分析得出结论，MetricX-23是最适合该任务的方法。

Apr, 2024