由大胆解决问题到破解难题：成语文本生成

Apr, 2021

由大胆解决问题到破解难题：成语文本生成

From Solving a Problem Boldly to Cutting the Gordian Knot: Idiomatic Text Generation

Jianing Zhou, Hongyu Gong, Srihari Nanniyur, Suma Bhat

TL;DR本篇文章研究了一种新的文本生成应用 —— 成语句子生成，通过使用神经模型和心理语言学理论，该文章提出一种有效转化直接字面短语到相应成语短语的方法，该方法在新建数据集上表现突出，超过其他文本生成竞争基准模型。

Abstract

We study a new application for text generation -- idiomatic sentence generation -- which aims to transfer literal phrases in sentences into their idiomatic counterparts. Inspired by →

text generation idiomatic sentence neural model psycholinguistic theories competitive baseline models

发现论文，激发创造

会话系统中成语的向量表征

本文研究表明，由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复，通过利用潜在习惯表达（PIE）- 英语习语语料库，我们实现了 98％F1 宏分数的准确率和更好的会话回复效果，为公众贡献了模型检查点 / 演示和代码。

May, 2022

跨越门槛：通过检索增强和损失加权的习语机器翻译

机器翻译的一个挑战是正确翻译习语表达，本研究提供了对习语翻译及相关问题的简单描述，并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源，我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集，同时引入了两种简单而有效的技术来改进自然习语的翻译，这不仅在习语句子的准确性上提高了强大预训练机器翻译模型达到了 13% 的绝对准确度，而且也对非习语句子存在潜在的好处。

Oct, 2023

生成多语种成语引申语境

测试生成语言模型在理解非组合性的修辞文本中的能力，发现这些模型在生成字面意思上连续性的上下文时稍微好一些，对于成语性上下文的连续性生成能力较为相似，且在不同语言中表现出的性能一致。

Oct, 2023

隐喻释义生成：用字面文本来训练隐喻语言模型

通过使用隐喻语言模型掩盖字面意思从而生成比喻性的解释，且该方法不仅关注动词，还包括名词和形容词。这种方法在元数据的分类中实现了比人工方法更高的水平。

Oct, 2022

对话大型语言模型中的成语检测：一道难题

本研究探讨了大型语言模型 (LLMs) 在习语语言处理方面的应用。我们介绍了由语言专家设计的新的难题数据集 “IdioTS”，用于评估 LLMs 在句子级别处理比喻语言的能力。我们提出了一种基于习语检测任务的综合评估方法，其中 LLMs 被提示在给定的英文句子中检测习语表达。我们对结果进行了全面的自动和手动评估，并进行了广泛的错误分析。

May, 2024

神经机器翻译中成语的自动评估和分析

本文探讨了神经机器翻译中存在的习语翻译难题，提出了一个新的自动化量化习语翻译错误的方法，并通过对模型的训练以及不同翻译测试集的测试，探索了单语预训练和习语上下文因素对翻译质量的影响。

Oct, 2022

翻译意义而非单纯的词语：IdiomKB 在通过语言模型优化成语翻译中的作用

使用大型语言模型开发的多语言习语知识库（IdiomKB）能够提高机器翻译模型的性能，通过检索习语的比喻含义，使较小的模型在翻译过程中得到更全面的理解。

Aug, 2023

隐喻性解释生成

本文描述了隐喻释义生成的任务，并提出了两种不同的模型：词汇替换基线和一种新的序列 - 序列模型 “隐喻屏蔽”，它可以生成自由的隐喻释义。我们使用众包来评估我们的结果，并开发了自动度量衡来评估隐喻释义。我们发现，虽然词汇替换基线能够产生准确的释义，但它们往往缺乏隐喻，而我们的隐喻屏蔽模型在生成隐喻句子方面表现出色，同时在流利度和释义质量方面表现也很好。

Feb, 2020

无强监督下的习语表达释义

本文探讨了习语句子改写的任务，提出了无监督和弱监督的方法来解决数据不足的问题，并用自动和手工评估验证了这些方法的有效性，该任务的实际用途是作为 En-De 机器翻译的预处理步骤。

Dec, 2021

轻松生成亚瑟式的比喻：基于风格转换的比喻生成方法

本文提出了一种自动构建平行语料库、用预训练的序列转序列模型 fine-tune 的方法，能够生成不同于训练数据中的新奇的明喻，而且相比两位文学专家和三种对比方法，能够更好地生成新奇的明喻，并展示了用生成的明喻替换机器生成的故事中的文字部分可以提高语言的唤起性和被人类接受程度。

Sep, 2020