早期中世纪希伯来诗歌隐喻检测数据集
本研究通过使用 MIPVU 方法并创建 CoMeta 数据集,提出了一种进行隐喻检测的具有竞争力的多语种和单语种大型语言模型的方法,同时在英语和西班牙语之间进行了跨语言实验。
Oct, 2022
通过使用并行语料库以及基于序列到序列模型和隐马尔可夫模型的方法,本文构建了一个自动跨领域语义映射的框架,通过生成一些具有语义相似性的例子,实现了提取图形用户界面元素的语义。
Mar, 2021
通过忽略潜在的比喻表达或其出现的上下文,本文展示了现有的比喻识别数据集如何被篡改。我们在各种数据集和环境中测试了这一假设,并表明基于语言模型的比喻识别系统在没有完整信息的情况下与使用完整上下文信息的系统具有竞争力,这是由于构建此类数据集的过程引入了对正面和负面类别的不希望的偏倚。最后,我们在从自然语料库中精心抽样且没有存在该偏倚的数据集上测试了同样的假设,使得这些数据集更具挑战性和可靠性。
Nov, 2023
本研究提出了 “形象化语言图像识别” 数据集,探讨了视觉和语言模型理解多模态形象化语言的难点,并借助基准任务和基线模型初步研究了这一问题。结果表明,所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。
Mar, 2023
本文提供了一个包含大约 75000 首诗歌的德国诗歌语料库,用于研究语义变化,重点关注意义的变化点,同时通过自相似性重构文学时期并发现诗歌也存在线性的语义变化定律。
Sep, 2019
集合了五个 RTE 数据集的文章,聚焦于比喻语言,示例超过 12500 个,研究发现现有的 RTE 模型无法很好地捕捉比喻语言的不同方面,无法进行语用推断和世界知识推理。该研究提供了一个挑战性的测试平台来评估 RTE 模型。
Jun, 2021
本文创建了适用于印地语、印尼语、爪哇语、康纳达语、巽他语、斯瓦希里语和约鲁巴语等七种不同语言的比喻推理数据集,并评估了多语言语言模型对于处理比喻语言的能力。研究发现各语言间的比喻表达依赖于文化和区域概念,并提出了需要在模型训练中暴露于更广泛的语言和文化变化中的必要性。
May, 2023
为了评估大型语言模型(LLMs)对隐喻理解的能力,我们发布了隐喻理解挑战数据集(MUNCH),该数据集提供了超过 10k 个含隐喻用法的句子的释义和 1.5k 个含不恰当释义的实例,以确定模型是否真正进行了完整的隐喻解释或者仅依赖词汇相似性。实验表明,MUNCH 对 LLMs 来说是一个具有挑战性的任务。
Mar, 2024
我们提出了 Meta4XNLI,这是一个包含西班牙语和英语隐喻注释的新型并行数据集,用于隐喻检测和解释的任务。通过利用我们提出的语料库,我们通过一系列的单语和跨语言实验来研究语言模型对隐喻的识别和理解能力。我们审查了结果并进行了错误分析,以便理解这些非字面表达如何影响模型的性能。此外,平行数据为研究这些语言之间的隐喻可转移性和翻译对多语言注释资源发展的影响提供了许多潜在机会。
Apr, 2024
本文旨在探索机器翻译在诗歌翻译方面的应用,研究并比较了诗歌和非诗歌语料库大小、双语和多语言学习、以及使用语系特定模型和混合多语言模型的效果,得出多语言微调在诗歌翻译中具有重要性和优越性。
Sep, 2021