本文探讨了神经机器翻译中存在的习语翻译难题,提出了一个新的自动化量化习语翻译错误的方法,并通过对模型的训练以及不同翻译测试集的测试,探索了单语预训练和习语上下文因素对翻译质量的影响。
Oct, 2022
本文基于黑名单方法,使用一个新的评估方法 CIBB 测试数据集,对机器翻译系统的成语翻译质量进行了评估,结果表明常见错误类型为逐字逐句字面翻译,黑名单方法可以有效发现该种错误类型。
Nov, 2017
使用大型语言模型开发的多语言习语知识库(IdiomKB)能够提高机器翻译模型的性能,通过检索习语的比喻含义,使较小的模型在翻译过程中得到更全面的理解。
Aug, 2023
本文研究表明,由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复,通过利用潜在习惯表达(PIE)- 英语习语语料库,我们实现了 98%F1 宏分数的准确率和更好的会话回复效果,为公众贡献了模型检查点 / 演示和代码。
May, 2022
机器翻译的一个挑战是正确翻译习语表达,本研究提供了对习语翻译及相关问题的简单描述,并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源,我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集,同时引入了两种简单而有效的技术来改进自然习语的翻译,这不仅在习语句子的准确性上提高了强大预训练机器翻译模型达到了 13% 的绝对准确度,而且也对非习语句子存在潜在的好处。
Oct, 2023
本文介绍了一个包含英语和葡萄牙语的细粒度含义数据集,用于测试语言模型对习语使用的检测能力和生成含有习语句子的表现效果,并且发现 fine-tuning 是学习包含 MWE 的句子表示的一种有效的样本高效方法。
Sep, 2021
本研究探讨了大型语言模型 (LLMs) 在习语语言处理方面的应用。我们介绍了由语言专家设计的新的难题数据集 “IdioTS”,用于评估 LLMs 在句子级别处理比喻语言的能力。我们提出了一种基于习语检测任务的综合评估方法,其中 LLMs 被提示在给定的英文句子中检测习语表达。我们对结果进行了全面的自动和手动评估,并进行了广泛的错误分析。
May, 2024
通过使用预训练的语言模型,我们可以提供上下文感知的句子嵌入来检测句子中的多词表达是否是惯用用法,从而更好地理解多词表达的惯用含义。
Apr, 2022
本研究提出了一种多阶段深度神经网络架构,利用注意力机制和上下文信息对句子中的习语表达进行定位,通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果,并具有对未见过的习语表达的识别能力。
Oct, 2021
使用上下文进行消歧的语义歧义翻译挑战,研究了英语本身存在的开放性短语歧义,并创建了一个包含消歧上下文的 512 个英文句子对的 TIDE 数据集。研究发现当前的机器翻译模型在翻译短语时倾向于直译,而语言模型则更加关注上下文,并强调了语言模型作为上下文感知翻译中坚力量的潜力。