本文提出了第一个大规模的短语翻译数据集,用于解决神经机器翻译模型中的成语翻译问题,并通过初步的实验评估了该数据集的效果。
Feb, 2018
本文基于黑名单方法,使用一个新的评估方法 CIBB 测试数据集,对机器翻译系统的成语翻译质量进行了评估,结果表明常见错误类型为逐字逐句字面翻译,黑名单方法可以有效发现该种错误类型。
Nov, 2017
机器翻译的一个挑战是正确翻译习语表达,本研究提供了对习语翻译及相关问题的简单描述,并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源,我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集,同时引入了两种简单而有效的技术来改进自然习语的翻译,这不仅在习语句子的准确性上提高了强大预训练机器翻译模型达到了 13% 的绝对准确度,而且也对非习语句子存在潜在的好处。
Oct, 2023
使用大型语言模型开发的多语言习语知识库(IdiomKB)能够提高机器翻译模型的性能,通过检索习语的比喻含义,使较小的模型在翻译过程中得到更全面的理解。
Aug, 2023
通过使用预训练的语言模型,我们可以提供上下文感知的句子嵌入来检测句子中的多词表达是否是惯用用法,从而更好地理解多词表达的惯用含义。
Apr, 2022
本文介绍了一种基于多词表达式的人机协作评估度量方法,旨在评估机器翻译系统中多词表达式的准确性和语义等价性,以此作为评估机器翻译系统的指标。
Nov, 2022
本文研究表明,由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复,通过利用潜在习惯表达(PIE)- 英语习语语料库,我们实现了 98%F1 宏分数的准确率和更好的会话回复效果,为公众贡献了模型检查点 / 演示和代码。
May, 2022
本研究提出了一种多阶段深度神经网络架构,利用注意力机制和上下文信息对句子中的习语表达进行定位,通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果,并具有对未见过的习语表达的识别能力。
Oct, 2021
该论文探讨了神经网络机器翻译模型的机制,发现 Transformers 模型在将成语翻译为目标语言时,倾向于将其视为由多个字面意义组成的表达式,导致成语的字面意义被保留。
本文介绍了一个包含英语和葡萄牙语的细粒度含义数据集,用于测试语言模型对习语使用的检测能力和生成含有习语句子的表现效果,并且发现 fine-tuning 是学习包含 MWE 的句子表示的一种有效的样本高效方法。
Sep, 2021