KE-QI: 知识增强的文章质量识别数据集

Jun, 2022

KE-QI: 知识增强的文章质量识别数据集

KE-QI: A Knowledge Enhanced Article Quality Identification Dataset

Chunhui Ai, Derui Wang, Xu Yan, Yang Xu, Wenrui Xie...

TL;DR该研究为解决鉴别高质量文章的问题提出了一种基于外部知识的文章质量鉴定方法，并提出了相关的数据集和实体链接技术，实验结果表明该方法有效性较高。

Abstract

With so many articles of varying qualities being produced every moment, it is a very urgent task to screen outstanding articles and commit them to social media. To our best knowledge, there is a lack of datasets and mature research works in identifying high-quality articles. Consequently, we conduct some surveys and finalize 7 objective indicators to annotat

article quality external knowledge dataset entity linking classification

发现论文，激发创造

KET-QA：用于知识增强表格问答的数据集

这篇论文介绍了一种使用知识库作为表格问答的外部知识源，并构建了一个带有精细化知识注释的数据集 KET-QA。通过设计检索 - 推理结构化流水线模型，实验结果表明，该模型在三个不同场景（微调、零样本和少样本）中相对性能提升范围为 1.9 至 6.5 倍，绝对性能提升范围为 11.66% 至 44.64%。然而，即使是最好的模型也只达到了 60.23% 的 EM 得分，仍然落后于人类水平，突显了 KET-QA 对问答研究领域的挑战性。

May, 2024

WikiSQE：维基百科句子质量评估的大规模数据集

提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE，包含了约 340 万句子和 153 个质量标签，并通过机器学习模型进行了实验自动分类，显示具有引文、句法 / 语义或命题问题的句子更难以检测，该数据集在自动化的文章评分实验中表现出更好的泛化性能，并有望成为自然语言处理中其他任务的有价值的资源。

May, 2023

RealKIE: 为企业关键信息提取设计的五个新数据集

RealKIE 是一个具有五个具有挑战性数据集的基准测试，旨在推进关键信息提取方法，重点关注企业应用。这些数据集包括一系列不同类型的文档，包括 SEC S1 文件，美国保密协议，英国慈善报告，FCC 发票和资源合同。除了介绍这些数据集外，我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述，以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。

Mar, 2024

维基百科文章质量评估的基于编辑的方法

该研究提出了一种基于编辑为中心的方法来评估维基百科文章质量的模型，该模型包含一个主分类器和一个辅助生成模块，可以提供编辑质量的估计和自然语言描述，经过实证研究发现该模型在数据和质量要求方面具有成本效益。

Sep, 2019

知识增强的联合生物医学实体和关系提取

本论文提出了一种名为 KECI（知识增强的集体推理）的新框架，结合外部知识进行实体和关系提取，在两个基准数据集 BioRelEx 和 ADE 中实现新的最先进结果，使用全局关系信息将提及跨度链接到实体，使用图卷积网络将全局关系信息集成到局部表示中。

May, 2021

EWEK-QA：面向引文问答系统的增强网络和高效知识图检索

通过设计自适应的网页检索器和高效地整合知识图谱三元组的方法，我们提出了增强型网页和高效知识图谱检索解决方案（EWEK-QA），以丰富系统提供的提取知识内容。我们的模型通过一系列定量分析和人工评估实验证明了 EWEK-QA 的有效性，显著提高了网页检索基线的相关段落提取率（>20%）、答案范围覆盖率（>25%）和自包含性（>35%），在 7 个定量问答任务和人工评估中明显优于仅使用网页或知识图谱的最新基线模型。

Jun, 2024

Event-QA: 在知识图谱上进行以事件为中心的问答数据集

本研究介绍了 Event-QA 数据集，该数据集专注于回答关于事件的问题，针对现有 QA 系统和数据集关注于实体问题的情况，提供了一种新的回答事件问题的方法。

Apr, 2020

多模态文档质量评估联合模型

本文研究在评估维基百科文章和学术论文质量方面，采用同时结合文本内容和文档视觉渲染的联合模型来捕捉文档质量的显式和隐式特征，实验结果表明，文本和视觉特征是互补的，能够达到最先进的效果。

Jan, 2019

LDKP: 从长篇科技文档中鉴别关键词短语的数据集

该研究发布了两份研究文献语料库，包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据，有助于实现从科学文章中提取关键短语的任务。

Mar, 2022

KonIQ-10k：一个生态有效的用于盲目图片质量评估的数据库

通过众包的方式，我们创建了 KonIQ-10k 数据集，该数据集是目前最大的图像质量评估数据集，共计包括 10,073 张有质量评分的图像。我们还提出了一种新的运用深度学习的模型 KonCept512，该模型通过 InceptionResNet 架构进行训练，在高分辨率的数据集上具有了比现有技术更好的泛化性能（SROCC0.921）

Oct, 2019