- 科学工作流智能辅助任务的新数据集和基准
科学创新依赖于详细的工作流程,而科学出版物的无结构性使得科研人员和人工智能系统难以有效地浏览和探索科学创新领域。为了解决这个问题,我们介绍了 MASSW,一个关于科学工作流多方面摘要的全面文本数据集。使用大型语言模型(LLMs),我们自动从 - ACLMissci: 重建被曲解的科学错误
通过介绍新的论证理论模型和一个针对误传的数据集 Missci,我们在零 - shot 设置下评估了两个代表性的大型语言模型(LLMs)的关键推理能力,结果表明 GPT 4 取得了有希望的成果,同时也展示了这一任务的难度。
- AI 中的 AI:探索 GPT 作为 AI 出版物专家注释工具的实用性
使用 GPT 聊天机器人模型进行有效的提示工程,可以将聊天机器人用作可靠的数据标注工具,从而实现基于人工智能的科学出版物的自动标注,其准确率达到 94%。用 GPT 标注的数据训练的分类器在性能上优于 arXiv 训练的模型,达到 82% - MM通过机器学习在不断演化的知识图上预测高影响力研究主题
预测从未发表的研究想法的影响力,使用大型知识图谱结合语义网络和引用网络,通过机器学习准确预测未来的网络动态和新研究方向的影响。
- 数据驱动语音增强方法自动文献综述的实验
本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研,评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性,尽管自动化文献调研在声学领域具有巨大潜力,但仍需要改进以更清晰准确地回答技术问题。
- SemOpenAlex: 260 亿 RDF 三元组的科学领域
SemOpenAlex 是一个拥有超过 260 亿三元组的 RDF 知识图谱,包含科学出版物及其关联实体(例如作者、机构、期刊和概念)。它提供多种数据访问方式,并支持知识图谱实体的嵌入,可用于探索性语义搜索、科学影响度量、学术推荐系统和语义 - MuLMS-AZ:材料科学领域的论证分区数据集
本研究基于科学出版物的常规修辞结构,将辩证区域的分类扩展到材料科学研究领域,并提出并发布了一个新的数据集,该数据集具有材料科学为中心的多标签注释方案,实验结果表明,使用特定领域的预训练基于 transformer 的文本编码器对高分类性能至 - 良好数据、大数据还是无数据?比较三种方法,为生物医学论文开展研究方面分类器
本文研究了不同数据集对居民群众标记的研究方面分类任务的模型性能的影响,探讨了使用大型自动筛选的 PubMed 200K RCT 数据集的潜在好处,并评估了大型语言模型,如 LLaMA,GPT-3,ChatGPT 和 GPT-4 的有效性。研 - 自然语言文本语义相似度的机器学习及关键词感知交叉编码排序摘要器 -- 以 UCGIS GIS&T 知识库为例的案例研究
该研究提出一种新的文本摘要算法(KACERS Summarizer),结合多种自然语言处理(NLP)技术,以提高 GIS&T 知识体系(BoK)的内容组织和发展效率,从而提供了利用机器学习技术分析科学出版物的新视角。
- 逻辑磨床 -- 知识导航系统
Logic Mill 是一个可扩展性强、开放可访问的软件系统,使用先进的自然语言处理技术在单个领域特定语料库或多领域语料库内识别语义相似的文档,通过大型预训练语言模型生成文档表示,并且可以通过简单的 API 或 Web 接口轻松访问,其更大 - 自然语言处理中脏话混淆的现状
通过对 150 篇 ACL 论文的调查,该研究发现脏话模糊处理通常只用于英文论文且其处理不均衡。因此,研究者提出了一个多语言社区资源 PrOf,它具有 Python 模块来标准化脏话模糊处理流程,从而帮助科学出版策略使仇恨言论得到标准化处理 - SIGIR专利短语语义匹配数据集
本研究介绍了一个新的人工评估的语境性短语匹配数据集,主要应用于专利和科学出版物中的技术概念,并且描述了该数据集和一些基线模型。
- 使用知识库进行食品安全出版物的专题分类
提出了一种基于知识库的新型科学出版物分类器,可实现伸缩性并易于适应其他领域,分类速度和准确度在食品安全领域表现出令人满意的潜力。
- MexPub:基于深度转移学习的德国出版物元数据提取
这篇文章提出了一种通过将文档视为图像从 PDF 文档中提取元数据的方法,并使用 COCO 数据集进行训练和 PubLayNet 数据集进行微调,以从德语科学出版物中提取 9 个模式(如作者、标题等),并且使用德语和英语内容和一组具有挑战性的 - 文献引用推荐:方法与数据集
本文系统介绍了对于科学出版物的引文推荐研究,概括了基于自动化方法和数据集的实现,分析了不同维度上的差异和共同点,着重探讨了其评价方法和挑战。
- EMNLP基于联合上下文驱动关注机制的神经网络相关工作总结
这篇论文提出了一种基于神经网络的自动文献摘要生成方法,使用 seq2seq 模型和上下文感知机制,同时考虑全文和参考文献的异构关系,以保持相关工作部分和目标文献的主题连贯性,并在大规模数据集上获得了优越的实验结果。
- ACL一个面向 Web 规模的科学知识探索系统
本研究提出一种大规模系统,将科学出版物组织成层次化概念结构,建立了包含超过 20 万个概念和 100 万以上关系的跨领域科学概念本体论。
- 科学论文摘要的监督式提取方法
本文介绍了一种新的数据集,用于总结计算机科学出版物,展示了利用神经句子编码和传统的总结功能来开发模型的方式,并表明即使在传统的科学领域中,对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能,并实现了明显优于已经建立的基准方法的 - 通过时间平衡的网络中心性识别重要论文
本文分析了美国物理学会期刊自 1893 年至 2009 年间发表的 449,935 篇论文的引证网络,并比较了基于引用计数的度量与网络度量之间的差异性。其中,一种结合了 PageRank 中心性、且不受时间偏差影响的新度量是总体表现最佳的度