COLINGJun, 2024
SciDMT: 用于科学引文检测的大规模语料库
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions
Huitong Pan, Qi Zhang, Cornelia Caragea, Eduard Dragut, Longin Jan Latecki
TL;DRSciDMT 是目前最大的科学实体提及检测语料库,它包含 48,000 篇科学文章、180 万个弱标注的提及标注以及 100 篇手动注释用于评估的科学文章。通过与 SciBERT 和 GPT-3.5 等先进深度学习架构的实验,我们演示了该语料库的实用性,确立了性能基线并突出了科学实体提及检测中未解决的挑战。SciDMT 为研究界提供了一个坚实的基准,鼓励开发创新模型,进一步推动科学信息提取领域的发展。