EMNLPNov, 2023

隐喻识别数据集中的建构工件

TL;DR通过忽略潜在的比喻表达或其出现的上下文,本文展示了现有的比喻识别数据集如何被篡改。我们在各种数据集和环境中测试了这一假设,并表明基于语言模型的比喻识别系统在没有完整信息的情况下与使用完整上下文信息的系统具有竞争力,这是由于构建此类数据集的过程引入了对正面和负面类别的不希望的偏倚。最后,我们在从自然语料库中精心抽样且没有存在该偏倚的数据集上测试了同样的假设,使得这些数据集更具挑战性和可靠性。