COLINGJun, 2024

SciDMT: 用于科学引文检测的大规模语料库

TL;DRSciDMT 是目前最大的科学实体提及检测语料库,它包含 48,000 篇科学文章、180 万个弱标注的提及标注以及 100 篇手动注释用于评估的科学文章。通过与 SciBERT 和 GPT-3.5 等先进深度学习架构的实验,我们演示了该语料库的实用性,确立了性能基线并突出了科学实体提及检测中未解决的挑战。SciDMT 为研究界提供了一个坚实的基准,鼓励开发创新模型,进一步推动科学信息提取领域的发展。