通过使用并行语料库以及基于序列到序列模型和隐马尔可夫模型的方法,本文构建了一个自动跨领域语义映射的框架,通过生成一些具有语义相似性的例子,实现了提取图形用户界面元素的语义。
Mar, 2021
本研究旨在基于概念隐喻理论通过控制生成过程并使用两种方法 (词汇级和序列生成模型) 生成有意义的隐喻表达。经过自动化和人工评估,实验结果表明,无监督的 CM-Lex 模型与最新的深度学习隐喻生成系统具有竞争力;而 CM-BART 优于其他所有模型。
Jun, 2021
本文描述了隐喻释义生成的任务,并提出了两种不同的模型:词汇替换基线和一种新的序列 - 序列模型 “隐喻屏蔽”,它可以生成自由的隐喻释义。我们使用众包来评估我们的结果,并开发了自动度量衡来评估隐喻释义。我们发现,虽然词汇替换基线能够产生准确的释义,但它们往往缺乏隐喻,而我们的隐喻屏蔽模型在生成隐喻句子方面表现出色,同时在流利度和释义质量方面表现也很好。
Feb, 2020
通过使用隐喻语言模型掩盖字面意思从而生成比喻性的解释,且该方法不仅关注动词,还包括名词和形容词。 这种方法在元数据的分类中实现了比人工方法更高的水平。
Oct, 2022
该研究介绍了一个大规模高质量的中文隐喻语料库,并提供了一套全面的准则作为注释指南,通过集成 “ground” 作为 CoT(思维链)输入,能够更多地产生与现实直觉产生共鸣的隐喻,测试了 Belie、Baichuan 和 Chinese-alpaca-33B 等生成模型,并展示了该语料库在中文隐喻研究中的价值。
Feb, 2024
对 VUA 隐喻数据集进行分析发现,很多隐喻对下游任务的性能产生很小的影响,因此需要将研究者的注意力转移到那些具有挑战性的隐喻上。为了识别出难度较大的隐喻,本文提出了一个自动化流程,并对各种热门 NLP 系统的机器翻译准确率降低了 16%、问答性能降低了 4%、自然语言推理降低了 7%、隐喻识别回忆率降低了超过 14%。
Jan, 2024
为了评估大型语言模型(LLMs)对隐喻理解的能力,我们发布了隐喻理解挑战数据集(MUNCH),该数据集提供了超过 10k 个含隐喻用法的句子的释义和 1.5k 个含不恰当释义的实例,以确定模型是否真正进行了完整的隐喻解释或者仅依赖词汇相似性。实验表明,MUNCH 对 LLMs 来说是一个具有挑战性的任务。
Mar, 2024
本论文提出了一种基于多任务学习的方法,通过使用对对手学习进行元喻识别模型与词义消歧模型间的特征转移,从而缓解元喻识别领域中因数据量过少而导致的问题。实验表明,该方法具有很好的性能表现。
May, 2023
该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息,结果显示这些模型的中间层主要包含了隐喻性知识,并且该知识在多语言和多数据集中具有泛化性。
Mar, 2022
本文提出了一个多任务深度学习框架来同时检测夸张和隐喻,在使用 HYPO 和 HYPO-L 两个夸张数据集和 TroFi 和 LCC 两个隐喻数据集进行的实验中,证明了隐喻和夸张对于彼此检测是有帮助的,而且证实了多任务学习方法在隐喻和夸张检测中的优越性。