May, 2022

SuMe: 面向生物医学机制概述的数据集

TL;DR本文介绍了生物医学机制总结任务,并利用少量手工标注的机制句子,训练了机制句子分类器以过滤大量的生物医学摘要并创建了一个包含 22k 实例的总结数据集。此外,我们还引入了 611k 实例的结论句子生成作为预训练任务,并基准测试了大型生物领域语言模型的性能。我们发现,虽然预训练任务有助于提高性能,但最佳模型仅在 32%的情况下产生可接受的机制输出,这表明该任务在生物医学语言理解和总结方面面临巨大挑战。