SemEval-2017 任务 3:社区问答
介绍了 SemEval--2016 的社区问答中的任务 3,包括英语和阿拉伯语,其中英语有三个子任务:问题 - 评论相似度(A),问题 - 问题相似度(B)和问题 - 外部评论相似度(C)。阿拉伯语有另一个子任务:为新问题重新排列正确答案(D)。18 个团队参加了该任务,提供了总共 95 个运行结果。
Dec, 2019
本文介绍了 SemEval-2015 Task 3 的组织和结果,以分类好、坏或潜在相关的答案,并回答 List of all answers 的 Yes / No 问题。我们使用 Mechanical Turk 对英语进行了广泛的数据标记,并已向研究社区发布。最好的系统在官方评分上看得分达到了 57.19 和 63.7(英语子任务 A 和 B),以及阿拉伯语子任务 A 的 78.55。
Nov, 2019
研究利用基于微调词嵌入和主题相似性的多个语义相似性特征寻找社区问答系统中的满意答案,其主要提交结果在 SemEval-2016 社区问答任务 3 的不同子任务中排名第三。
Nov, 2019
介绍我们在 SemEval-2016 Task 3 on Community Question Answering 中的系统,我们通过结合丰富的语义、词汇、元数据和用户相关特征,在子任务 C 上取得了最好的结果,在子任务 A 和 B 上也取得了强大的结果,其中元数据的组合对于问题和评论是最重要的,在子任务 A 和 C 中使用 QatarLiving 数据训练的语义向量和问题与评论之间的相似性,在子任务 B 中使用原始问题与相关问题之间的相似性。
Sep, 2021
SemEval-2019 任务 8 旨在检测社区问答论坛中的事实,其中子任务 A 是判断一个问题是要求事实信息还是意见 / 建议,还是仅仅是社交。子任务 B 要求预测对事实问题的回答是真实的,假的还是不恰当的回答。该研究共收到了 17 个子任务 A 的官方提交和 11 个子任务 B 的官方提交,并且所有系统的成绩都超过了大多数分类基准线。该比赛的排行榜和数据可以在 http URL 上找到。
May, 2019
本文介绍了 SemEval-2020 任务 4,Commonsense Validation and Explanation (ComVE),该任务包括三个子任务,旨在评估一个系统能否区分人类可以理解的自然语言语句和不可理解的语句,并提供解释。本任务吸引了 39 个团队参与其中,对于 A、B 两个子任务,排名靠前的系统的表现与人类相当接近,但对于 C 子任务,系统和人类之间仍存在较大差距。
Jul, 2020
该研究研究了应用不同类型的特征来学习对社区问答中的问题重新排序的影响,并在 SemEval-2016 的两个数据集上测试了我们的模型。该研究表明,使用句法树核和包 - 词特征能够提高重新排序的效果。
Oct, 2016
本文描述了 BUT-FIT 团队在 SemEval 2020 任务 4(常识验证和解释)中的工作,涉及三个子任务:A、B、C。其中,在子任务 A 和 B 中,我们的提交基于预训练语言表示模型和数据增强。我们尝试了使用多语言模型和机器翻译数据集或翻译模型输入来解决另一种语言(捷克语)的任务。在子任务 C 中,我们的提交基于预训练序列到序列模型,排名第一。我们还对所有子任务进行了误差和数据集分析,并提出了我们的发现。
Aug, 2020
该论文介绍了 UH-PRHLT 系统,使用词汇和语义相似性来表示文本对实例,使用 BabelNet 和 FrameNet 生成知识图谱,并在三个英文子任务中的实验结果优于随机和 Google 搜索引擎基线,尤其在子任务 B 中获得了最高成绩。
Jul, 2018
该论文描述了 SemEval-2014 中的 Twitter 情感分析任务,介绍了新的测试集并报道了最高 F1 分数达到 86.63(子任务 A)和 70.96(子任务 B)的结果。
Dec, 2019