Semeval-2017 任务 7:杜卢斯:午夜想入非非的双关语,弱者与疲惫者的词汇语义学
本研究介绍了 Duluth 系统在 SemEval-2019 Task 6 中的表现,主要采用传统机器学习的方法,通过手动标记的训练数据中的词汇特征构建分类器来识别和分类社交媒体中的冒犯性语言,其中最成功的分类方法是基于规则的黑名单方法并尝试将两个不同但相关的 SemEval 任务的训练数据合并,最终在三个 OffensEval 任务中的最佳系统在比较评估中排名中等。
Jul, 2020
本文介绍了 Duluth 系统参加了 SemEval-2020 任务 12:社交媒体中的多语种攻击性语言识别(OffensEval-2020),利用逻辑回归提供了一个简单的机器学习基线,并使用任务组织者提供的远程监督训练数据进行了模型训练。然而,最终在比较评估中的排名并不高,我们进行了定性分析并发现金标准数据中的类别标签有一定的噪声,这样的高排名可能反映的是训练数据上过拟合而并不能很好地预测英语中攻击性语言的特点。
Jul, 2020
该论文从序列标注的角度,提出了一种同时解决双关语检测和位置定位的方法,并采用新的标记方案,表明该方法在处理同形异义词和同音异义词方面都具有显著的效果,实验结果证明了该方法可以达到最新的最优结果。
Aug, 2019
该研究介绍了阿尔伯塔大学关于 SemEval-2022 任务 2 多语言惯用语检测的系统,研究者开发的两种方法在分别结合单词含义和翻译理解的基础上,使用现有的词汇知识,取得了有利的结果。
May, 2022
本文提出了一个用于理解和生成语言幽默的数据集 ExPUN,其中包含有关标记单词的详细注释,用于描述开玩笑的原因的双关语解释以及细粒度的幽默等级评分。同时,本文提出了解释生成和关键字条件的双关语生成两个任务,以挑战目前自然语言理解和生成模型的理解和生成幽默的能力,并展示了我们收集的注释关键字有助于生成更好的新颖幽默文本。
Oct, 2022
该论文介绍了 UH-PRHLT 系统,使用词汇和语义相似性来表示文本对实例,使用 BabelNet 和 FrameNet 生成知识图谱,并在三个英文子任务中的实验结果优于随机和 Google 搜索引擎基线,尤其在子任务 B 中获得了最高成绩。
Jul, 2018
这篇论文介绍了跨语种成语识别和句子嵌入的共享任务,包括二分类任务和基于文本相似度的任务,并说明了训练数据、数据集、评估指标、参与系统和结果。这项任务吸引了近 100 个注册参与者,成立了 25 个团队,在实践和评估阶段共提交了超过 650 和 150 份提交 respectively。
Apr, 2022
第一项共享任务的结果,提供了评估框架和高质量的英语,德语,拉丁语和瑞典语手动注释数据集,解决了词汇语义变化检测领域中评估问题的压力,并吸引了 33 个团队提交了 186 个系统。
Jul, 2020
该论文描述了 X-PuDu 系统,该系统参与了 SemEval-2022 任务 6(英语和阿拉伯语中的预期讽刺检测),旨在检测各种自然语言理解环境中的预期讽刺。我们的解决方案在多语言环境下微调了预训练的语言模型,如 ERNIE-M 和 DeBERTa,以识别阿拉伯语和英语文本中的讽刺。我们的系统在本次比赛中名列第二,第九(英语和阿拉伯语中的单句检测),排名第五(英语中的二元多标签分类),第一和第五(英语和阿拉伯语中的句对检测)。
Nov, 2022
本文提出了一种简单而有效的方法来生成双关语句子,该方法不需要训练现有双关语。我们的方法受到幽默理论的启发,即歧义来自于上下文而不是双关词本身,我们的模型首先通过反向字典生成与双关词相关概念的列表,然后利用一次性 GPT3 生成上下文单词,最后将从两个概念中的上下文词语生成双关语。人类评估表明,我们的方法成功地生成 52%的双关语,远远优于其他精心制作的基线和最先进的模型。
May, 2022