2017 年 WSDM Cup 三元评分任务概述

Dec, 2017

Overview of the Triple Scoring Task at the WSDM Cup 2017

Hannah Bast, Björn Buchhold, Elmar Haussmann

TL;DR本文介绍了 WSDM Cup 2017 的三元组评分任务，包括任务和数据集的描述，参与团队及其结果的概述，以及采用的方法的简要说明。

Abstract

This paper provides an overview of the triple scoring task at the wsdm cup 2017, including a description of the task and the dataset, an overview of the participating teams and their results, and a brief account

triple scoring wsdm cup knowledge-base triples relevance scores ground truth

发现论文，激发创造

知识库三元组评分的神经分类器集成

本文介绍了我们在 WSDM Cup 2017 的三元组评分任务中所采用的方法，该方法采用了多个神经网络分类器的输出，并使用监督式机器学习模型进行了组合。实验结果表明，我们提出的方法在三项指标中的一项（即 Kendall's tau）取得了最佳性能，并在其他两个指标（即准确度和平均分差）上表现出了竞争力。

Mar, 2017

WSDM Cup 2017 会议录：破坏检测和三元评分

WSDM Cup 2017 是一个数据挖掘挑战赛，旨在解决当今知识库的主要问题：质量保证和实体搜索，其中质量保证重点解决了维基数据知识库中的破坏检测问题，而实体搜索则采用三元组评分的方法进行，参赛者通过云平台提交其软件，并被激励公开分享其方法。

Dec, 2017

TREC 2019 公平排名任务综述

该研究介绍了 TREC Fair Ranking 跟踪项目，实现了服务于不同内容提供商公平性和相关度的基准评估，发布了一个数据集，目标是要公正地呈现来自多个未知组的相关作者的重要性，重点关注能够在各种组别定义下表现出强大性能的系统的开发。

Mar, 2020

对 Winograd-Style 任务数据集重叠的分析

通过研究神经语言模型在 Winograd Schema Challenge 任务中的表现，我们发现测试实例与神经语言模型训练语料库之间的重叠对模型分类准确性具有重要影响。我们发现现有训练语料库与测试实例的重叠具有较高比例，导致模型在具有最小重叠的实例上表现显著下降。基于这些结果，我们构建了 KnowRef-60K 数据集，它是至今为止最大的 Winograd Schema Challenge 风格的常识推理语料库，并且与当前的预训练语料库重叠比例显著降低。

Nov, 2020

科学排行榜构建中的任务、数据集、评估指标和数值得分的识别

本文提出了一种基于 TDMS-IE 框架的自动提取 NLP 论文中任务、数据集、评价指标和得分来自动构建排行榜的方法，实验表明该模型表现优于几个对比算法，是自动构建排行榜的第一步。

Jun, 2019

Winograd 模式挑战的击败

本文回顾了 Winograd Schema Challenge 的历史并讨论了过去十年 WSC 研究中的持久贡献。我们讨论了为 WSC 开发的各种数据集的重要性以及研究社区对评估 AI 系统智能的代理任务作用的更深入理解。

Jan, 2022

Winograd Schema Challenge 的惊人强大技巧

本文探讨了在类似代词消歧问题的数据集上进行微调对于三种语言模型在 Winograd Schema Challenge (WSC) 数据集上表现的影响，并生成了一个大规模的无监督 WSC-like 数据集，通过细调 BERT 语言模型在引入的及 WSCR 数据集上，WSC273 和 WNLI 的总体准确率分别达到了 72.5% 和 74.7%，相较于先前的最优方案提高了 8.8% 和 9.6%。此外，我们的微调模型在 Denis Trichelair 等人（2018）引入的 “复杂” 子集上也更加稳健。

May, 2019

CL-SciSumm 2018 共享任务：结果与关键见解

CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.

Sep, 2019

SemEval-2016 任务 3: 社区问答

介绍了 SemEval--2016 的社区问答中的任务 3，包括英语和阿拉伯语，其中英语有三个子任务：问题 - 评论相似度（A），问题 - 问题相似度（B）和问题 - 外部评论相似度（C）。阿拉伯语有另一个子任务：为新问题重新排列正确答案（D）。18 个团队参加了该任务，提供了总共 95 个运行结果。

Dec, 2019

研究利用基于微调词嵌入和主题相似性的多个语义相似性特征寻找社区问答系统中的满意答案，其主要提交结果在 SemEval-2016 社区问答任务 3 的不同子任务中排名第三。

Nov, 2019