iNaturalist公民科学社区的网络分析
介绍了 OpenML,这是一个用于分享和组织详细数据以更有效地工作、更可见和与他人合作解决更困难问题的机器学习研究者的场所,探讨了OpenML与其他网络科学实例的关系以及对机器学习研究、科学家和学生从业者带来的好处。
Jul, 2014
本研究采用 meta-learning 方法,系统地评估了 203 种缺失链路预测算法,尝试找到单一最优预测器和服务于各种输入的最佳算法。结果发现,无论是预测误差还是可预测性方面,各种算法和分类族都存在明显差异,因此通过结合预测器构建“叠加模型”能够达到最优的精度,但这种精度在不同领域的网络中仍然有所不同。
Sep, 2019
本文介绍了社区检测的基本问题,即如何把社交网络中具有明确社交关系的社会行为者分成紧密相连和高度相关的群体,并详细介绍了使用节点属性的方法,对已知的方法进行分类,提供了每种方法的一般技术思想,分析了当前领域的状况并揭示了一些需要未来解决的问题。
Dec, 2019
该研究采用一种新的图形化架构,即 SKG GRAPHYP,对认知社区的知识多样性和学术争议中的替代路径进行了优化,提供了研究领域不同搜索路径的分类,可以从其科学文献的搜索历史记录中识别用户并将其分类为“认知社区”中的一员。
May, 2022
本文介绍了 PubGraph,一种大规模的时间知识图谱资源,可用于研究科学进展,并使用三个知识图来提供不同尺度的实验,介绍了新的链接预测基准和两种新的归纳式学习方法,它们更适合 PubGraph,能够在没有明确特征的未见节点上操作,比现有模型表现更好。
Feb, 2023
近年来,资助机构和期刊越来越倡导开放科学实践(如数据和方法共享),以提高科学的透明度、可获取性和可重复性。本研究利用来自arXiv的110万篇论文的大规模数据集,代表了物理、数学和计算机科学领域,分析了随时间推移数据和方法链接共享实践的采用情况以及对文章接受程度的影响。我们通过训练神经文本分类模型来识别数据和方法链接,根据论文中的上下文提及自动分类URL类型。研究发现,随着时间推移,链接方法和数据的共享实践正在扩散,越来越多的论文包含此类URL。可重复性努力也可能在扩散,因为相同的链接越来越多地在论文中被重复使用(特别是计算机科学领域),并且这些链接随时间越来越集中在更少的网域(如Github)中。最后,分享数据和方法链接的文章在引用次数方面获得了增加的承认,当链接是有效的时候效果更强。这些发现共同证明了数据和方法共享实践在开放科学中的扩展和受到的重视。
Oct, 2023
本研究介绍了一种创新方法,将社区检测算法与图神经网络(GNN)模型相结合,以增强科学文献网络中的链接预测。我们特别关注利用Louvain社区检测算法揭示这些网络中的潜在社区结构,并将其整合到GNN架构中以预测潜在链接。我们的方法论证了在复杂网络中理解社区动态的重要性,并利用社区检测和GNN的优势来提高预测精度。通过对代表科学合作和引用的二部图的大量实验,我们的方法不仅凸显了社区检测和GNN之间的协同作用,还解决了链接预测中存在的一些普遍挑战,如可扩展性和分辨率限制。结果表明,整合社区级别信息可以显著提高GNN在链接预测任务中的性能。本工作通过将先进的机器学习技术与传统网络分析方法相结合,为网络科学领域提供了一种新的整合视角,以更好地理解和预测科学合作的复杂模式。
Jan, 2024
本文介绍了基于开放学术图的全面、多方面和细粒度的人工筛选基准OAG-Bench,涵盖了10个任务、20个数据集、70+基线和120+实验结果,并提供了新的数据注释策略、数据预处理代码、算法实现和标准化评估协议,以促进学术图挖掘的发展。
Feb, 2024