多语言比喻对话数据集:我像兔子一样快,你呢?
本篇论文提出了 Writing Polishment with Simile(WPS)的新任务,探究机器是否能够像我们人类一样,使用比喻精细地改善文本。在此基础上,使用 transformer 架构设计两阶段 Locate&Gen 模型,首先定位比喻插值应该出现的位置,然后生成与该位置相关的比喻,实验结果证明了 WPS 任务的可行性,并揭示了未来研究方向,以 实现更好的自动文本精修。同时,文章释出了一个包含 500 万个带上下文中文比喻的数据集。
Dec, 2020
本文提出了一种自动构建平行语料库、用预训练的序列转序列模型 fine-tune 的方法,能够生成不同于训练数据中的新奇的明喻,而且相比两位文学专家和三种对比方法,能够更好地生成新奇的明喻,并展示了用生成的明喻替换机器生成的故事中的文字部分可以提高语言的唤起性和被人类接受程度。
Sep, 2020
提出了一种基于循环多任务学习框架的神经比喻识别方法,通过迭代执行子任务并将前一个子任务的输出作为当前子任务的附加输入,更好地探索了子任务之间的相互依赖关系。该方法在中文比喻识别方面用 BERT 模型取得了极大的性能提升。
Dec, 2019
探究表达特征在比喻识别任务中的表现,设计了一种名为 HGSR 的模型,通过构建异构图和蒸馏的方式将输入特征和解码特征结合使用,证明其在比喻识别任务中的显著优势。
Nov, 2022
本研究设计了一项名为 “比喻属性探测” 的新任务,通过构建数据集并研究其构建的多类别示例,我们发现预训练语言模型可以推理出比喻的共同特性,但表现仍落后于人类,使用知识嵌入方法对其进行训练则可以提高性能。
Mar, 2022
提出一种新的框架来构建大规模的拟人化智能,基于符号系统的比喻知识库,并使用两种概率学方法来帮助理解自然语言的比喻现象。构建了一个由 0.4 百万个术语中的 430 万个三元组组成的、占据 70 GB 语料库的百万级概率性比喻知识库 —— MAPS-KB,并在三个下游任务上应用,实现了最先进的性能。
Dec, 2022
本文介绍一种利用预训练语言模型中的知识解决类比解释和类比生成任务的方法,提出一种基于模式的方法来完成词的预测,同时采用模式集成和模式搜索的方式提高预测词的质量。实验结果表明该方法在类比解释和类比生成方面取得了很好的效果。
Apr, 2022
本文介绍了一个用于歌词语义相似度任务的新数据集和基准。通过一项集体注释实验,我们获得了 676 个高质量的注释对,并评估了各种最先进的单语和多语言语言模型的性能,以建立未来学术和工业应用的基准结果。
Jun, 2023
本研究提出了 “形象化语言图像识别” 数据集,探讨了视觉和语言模型理解多模态形象化语言的难点,并借助基准任务和基线模型初步研究了这一问题。结果表明,所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。
Mar, 2023
本文提出使用隐喻用户模拟器和基于测试者的评估框架对任务型对话系统进行评估,在三个数据集的实验中,隐喻用户模拟器在准确性上表现更好,并证明了框架的高效性和良好的泛化和可扩展性。
Apr, 2022