HilMeMe: 一种基于人机交互的机器翻译准确度度量方法，关注多词表达

Nov, 2022

HilMeMe: 一种基于人机交互的机器翻译准确度度量方法，关注多词表达

HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric Looking into Multi-Word Expressions

Lifeng Han

TL;DR本文介绍了一种基于多词表达式的人机协作评估度量方法，旨在评估机器翻译系统中多词表达式的准确性和语义等价性，以此作为评估机器翻译系统的指标。

Abstract

With the fast development of machine translation (MT) systems, especially the new boost from Neural MT (NMT) models, the MT output quality has reached a new level of accuracy. However, many researchers criticised that the current popular →

machine translation neural mt models evaluation metrics multi-word expressions nlp

发现论文，激发创造

神经机器翻译中注意多词表达

探究了神经机器翻译 (NMT) 在英文 - 拉脱维亚语和英文 - 捷克语 NMT 系统中分配注意力和改善包含多词表达式 (MWE) 的句子的自动翻译，使用两种改进策略：自动提取的 MWE 候选句对和包含提取的 MWE 候选句的完整句子，两种方法均取得了良好的结果，其中第一种方法表现最佳，自动评估结果提高了 0.99 BLEU 点。同时还提供了用于 MWE 提取和对齐检查的开源软件和工具。

Oct, 2017

使用 BERT (s) 检测多词表达式

本文探索使用最先进的神经转换器来检测多词表达的任务，并在 SemEval-2016 Task 10 数据集中实验评估了几个 Transformer 模型，结果表明 Transformer 模型优于基于长短期记忆（LSTM）的以前的神经模型。

Aug, 2022

使用双向蕴涵的机器翻译评估

本文提出了一种基于双向蕴含的机器翻译评估新指标，利用深度学习实现候选和参考翻译之间的语义相似度评分，应用于 WMT'14 和 WMT'17 数据集，与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。

Nov, 2019

困难感知机器翻译评估

提出一种考虑翻译难度的机器翻译评估方法，结果显示在 WMT19 上表现出色。

Jul, 2021

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

MMTE：评估隐喻语言机器翻译质量的语料库和度量

机器翻译的评估方法主要关注流畅度和事实可靠性，而对比喻质量关注较少。本文研究机器翻译的比喻质量，并提出了一组以比喻语言翻译为重点的人工评估指标。我们还介绍了一个多语言平行比喻语料库，并设计了评估协议来评估机器翻译的隐喻等价性、情感、真实性和质量。通过观察，我们发现比喻表达的翻译与字面意义的翻译具有不同的特点。

Jun, 2024

HiJoNLP 参加 SemEval-2022 任务 2: 使用多语言预训练语言模型检测多词表达的成语性

使用多语言预训练语言模型的上下文表示仅探测习语性的方法，实验发现模型规模越大在习语性探测上越有效。然而，使用较高的模型层不一定能够保证更好的性能。在多语言场景下，不同语言的融合不一致，资源丰富的语言比其他语言更具有优势。

May, 2022

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

多词语无监督释义

提出了一种用于无监督多词表达式改写的方法，通过使用单语料库和预训练语言模型（无需微调），不需要使用任何外部资源，例如词典，并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。

Jun, 2023

侧抑制和领域适应在多语言多词表达式识别中的应用

为在多语境环境下准确识别多词表达式 (MWEs)，在所有第 1.2 版 PARSEME 语料库中可用的 14 种语言上对 mBERT 模型进行训练，并将侧向抑制和语言对抗性训练纳入方法中，以创建语言无关的嵌入并提高其识别多词表达式的能力，该方法在全球 MWE 识别中比 PARSEME 1.2 竞赛的最佳系统 MTLB-STRUCT 在 11 种语言中更好地实现，对于未见 MWE 识别中的 12 种语言，平均所有语言，我们的最佳方法在全球 MWE 识别上优于 MTLB-STRUCT 系统 1.23％，在未见全球 MWE 识别上优于 MTLB-STRUCT 系统 4.73％。

Jun, 2023