OAG-Bench: 学术图挖掘的人工策划基准

Feb, 2024

OAG-Bench: 学术图挖掘的人工策划基准

OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining

Fanjin Zhang, Shijie Shi, Yifan Zhu, Bo Chen, Yukuo Cen...

TL;DR本文介绍了基于开放学术图的全面、多方面和细粒度的人工筛选基准 OAG-Bench，涵盖了 10 个任务、20 个数据集、70 + 基线和 120 + 实验结果，并提供了新的数据注释策略、数据预处理代码、算法实现和标准化评估协议，以促进学术图挖掘的发展。

Abstract

With the rapid proliferation of scientific literature, versatile academic knowledge services increasingly rely on comprehensive academic graph mining. Despite the availability of public academic graphs, benchmarks, and datasets, these resources often fall short in multi-aspect and fine

academic graph mining benchmark open academic graph data annotation algorithm development

发现论文，激发创造

面向图机器学习的数据集：Open Graph Benchmark

本研究介绍了 Open Graph Benchmark（OGB），它是一个包含多个重要图形机器学习任务的大规模数据集，为规模化、坚固性、再现性图形机器学习研究提供了有挑战的、真实的基准数据集，并提供一个统一的评估协议，其中包括有意义的特定于应用程序的数据拆分和评估指标。同时，OGB 提供了一个自动化的端到端图形机器学习管道，简化了图形数据加载、实验设置和模型评估的流程。

May, 2020

OAG-BERT：面向学术知识服务的统一骨干语言模型

通过使用 Open Academic Graph 中的异构实体知识和科学语料库，我们为不同的高度知识密集型的学术应用程序构建了一个统一的骨干语言模型 OAG-BERT，并开发了其预训练策略和零 - shot 推理技术，并将其应用于实际应用程序中。

Mar, 2021

动态异构学术图的公共基准测试

本研究针对机器学习模型在动态图中的学习和推理遇到的挑战，针对传统静态同构图数据集的局限性，提出了一种利用多元素科学出版涵盖的动态异构学术图数据集，测试模型预测任务的效能，并提出了一种系统方法来改善现有的图预测模型评估程序。

Apr, 2022

OlympiadBench：一个挑战性的基准测试，旨在推动具备奥林匹克级双语多模式科学问题的通用人工智能

我们提出了 OlympiadBench，这是一个奥林匹克级双语多模态科学基准，包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题，每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型，并实施了全面的评估方法，从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23％，物理得分仅为 11.28％，突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。

Feb, 2024

AGIBench: 一个多粒度、多模态、人用参考、自动评分的大型语言模型基准

这篇论文提出了 AGIBench - 一种多粒度多模态人工参考和自动评分的大型语言模型评估基准方法。

Sep, 2023

OpenGDA：面向跨网络学习的图领域自适应基准

图领域适应模型在跨网络学习任务中得到广泛应用，目的是传递标记或结构知识。我们提出了一个名为 OpenGDA 的基准，它提供了丰富的预处理和统一数据集以进行不同类型的任务评估，并整合了最先进的模型和标准化的端到端流程。OpenGDA 是一个用户友好、可扩展和可复制的基准，可用于评估图领域适应模型在真实世界应用中的性能和挑战。

Jul, 2023

OGB-LSC：基于图形的机器学习的大规模挑战

介绍 OGB Large-Scale Challenge (OGB-LSC) 数据集，提供了链接预测、图回归和节点分类等三个核心图学习任务的基线实验，并展示了表达性图机器学习模型的巨大优势和当前大规模图机器学习的最佳实践。该数据集已经在 ACM KDD Cup 2021 中得到了全球超过 500 个团队的注册，吸引了各种创新技术的参与，进一步促进了大规模图机器学习方面的研究进展。

Mar, 2021

知识抽象、具体化和补全的多任务基准 (KACC)

本论文介绍了一种包含实例级实体视图和本体级概念视图的综合知识图谱，提出了一个统一的知识图谱基准测试，并设计并收集了新的数据集来评测知识的抽象、具像和完整性，特别是关注 MKA 和 MKC 任务，为难度更大的样本提供多跳层级三元组注释，实验结果表明了我们提供的数据集的挑战。

Apr, 2020

IGL-Bench: 建立不平衡图学习的综合基准

为了解决不平衡图数据在传统图学习算法中所导致的偏颇结果问题，本研究引入了 IGL-Bench，它是一种用于不平衡图学习的全面基准测试工具，研究了 16 个不同的图数据集和 24 种不同的 IGL 算法，通过一致的数据处理和划分策略，系统地评估了 IGL 算法的效力、鲁棒性和效率，并展示了这些算法在不同不平衡条件下的潜在益处，为 IGL 领域的进一步研究提供了机会和启示。

Jun, 2024

AGIEval: 人类中心基准评估体系用于评价基础模型

本文介绍了一个人类中心的基准测试 AGIEval，通过人类中心的标准化考试来对各种基础模型进行评估。在这个基准测试中，以 GPT-4，ChatGPT 和 Text-Davinci-003 为例，GPT-4 在 SAT，LSAT 和数学竞赛中的表现超过了人类的平均水平，取得了 95% 的数学测试准确率和 92.5% 的语文测试准确率。但在涉及复杂推理或特定领域知识的任务中，GPT-4 的表现较差。通过对模型能力（理解、知识、推理和计算）的全面分析，本文揭示了这些模型的优点和局限性，为增强它们的通用能力提供了有价值的见解。

Apr, 2023