Jan, 2022

基于远程标注和置信度校准的大规模蛋白质翻译后修饰抽取

TL;DR在这项研究中,作者使用 IntAct PPI 数据库创建了一个远程监督的数据集,用 PPI-BioBERT-x10 训练集成的 BioBERT 模型来预测蛋白质对之间的 PTMs,并提出一个置信度校准的方法以对其进行过滤和人工筛选。他们发现,即使进行了置信度校准,也会出现在测试数据集外的误差和挑战。因此,他们利用多篇文章进行预测,从而提高了预测的精度和可靠性。这项研究探讨了深度学习方法在文本挖掘中的应用和局限性,同时强调了在人工筛选过程中置信度校准的重要性。