审视冰山一角：一组惯用语翻译的数据集

Feb, 2018

审视冰山一角：一组惯用语翻译的数据集

Examining the Tip of the Iceberg: A Data Set for Idiom Translation

Marzieh Fadaee, Arianna Bisazza, Christof Monz

TL;DR本文提出了第一个大规模的短语翻译数据集，用于解决神经机器翻译模型中的成语翻译问题，并通过初步的实验评估了该数据集的效果。

Abstract

neural machine translation (NMT) has been widely used in recent years with significant improvements for many language pairs. Although state-of-the-art NMT systems are generating progressively better translations, idiom

neural machine translation idiom translation data set german-english nmt experiments

发现论文，激发创造

神经机器翻译中成语的自动评估和分析

本文探讨了神经机器翻译中存在的习语翻译难题，提出了一个新的自动化量化习语翻译错误的方法，并通过对模型的训练以及不同翻译测试集的测试，探索了单语预训练和习语上下文因素对翻译质量的影响。

Oct, 2022

利用黑名单方法评估中文成语机器翻译性能

本文基于黑名单方法，使用一个新的评估方法 CIBB 测试数据集，对机器翻译系统的成语翻译质量进行了评估，结果表明常见错误类型为逐字逐句字面翻译，黑名单方法可以有效发现该种错误类型。

Nov, 2017

翻译意义而非单纯的词语：IdiomKB 在通过语言模型优化成语翻译中的作用

使用大型语言模型开发的多语言习语知识库（IdiomKB）能够提高机器翻译模型的性能，通过检索习语的比喻含义，使较小的模型在翻译过程中得到更全面的理解。

Aug, 2023

会话系统中成语的向量表征

本文研究表明，由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复，通过利用潜在习惯表达（PIE）- 英语习语语料库，我们实现了 98％F1 宏分数的准确率和更好的会话回复效果，为公众贡献了模型检查点 / 演示和代码。

May, 2022

跨越门槛：通过检索增强和损失加权的习语机器翻译

机器翻译的一个挑战是正确翻译习语表达，本研究提供了对习语翻译及相关问题的简单描述，并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源，我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集，同时引入了两种简单而有效的技术来改进自然习语的翻译，这不仅在习语句子的准确性上提高了强大预训练机器翻译模型达到了 13% 的绝对准确度，而且也对非习语句子存在潜在的好处。

Oct, 2023

预训练语言模型中习语的探索数据集和方法

本文介绍了一个包含英语和葡萄牙语的细粒度含义数据集，用于测试语言模型对习语使用的检测能力和生成含有习语句子的表现效果，并且发现 fine-tuning 是学习包含 MWE 的句子表示的一种有效的样本高效方法。

Sep, 2021

对话大型语言模型中的成语检测：一道难题

本研究探讨了大型语言模型 (LLMs) 在习语语言处理方面的应用。我们介绍了由语言专家设计的新的难题数据集 “IdioTS”，用于评估 LLMs 在句子级别处理比喻语言的能力。我们提出了一种基于习语检测任务的综合评估方法，其中 LLMs 被提示在给定的英文句子中检测习语表达。我们对结果进行了全面的自动和手动评估，并进行了广泛的错误分析。

May, 2024

HIT 在 SemEval-2022 任务 2 中的表现：预训练语言模型用于成语检测

通过使用预训练的语言模型，我们可以提供上下文感知的句子嵌入来检测句子中的多词表达是否是惯用用法，从而更好地理解多词表达的惯用含义。

Apr, 2022

使用语义兼容性进行惯用语表达式识别

本研究提出了一种多阶段深度神经网络架构，利用注意力机制和上下文信息对句子中的习语表达进行定位，通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果，并具有对未见过的习语表达的识别能力。

Oct, 2021

这是最后一根稻草，我们需要更多：翻译系统对于消歧上下文的敏感度如何？

使用上下文进行消歧的语义歧义翻译挑战，研究了英语本身存在的开放性短语歧义，并创建了一个包含消歧上下文的 512 个英文句子对的 TIDE 数据集。研究发现当前的机器翻译模型在翻译短语时倾向于直译，而语言模型则更加关注上下文，并强调了语言模型作为上下文感知翻译中坚力量的潜力。

Oct, 2023