Oct, 2023

PETA: 基于亚词分词的蛋白质迁移学习对下游应用的影响评估

TL;DR基于 14 种不同词汇大小的 PETA 训练语言模型在 33 个多样的下游数据集上进行了数千次测试,研究表明词汇大小在 50 到 200 之间对于模型的优化最佳,而超过 800 的大小则对模型的表征性能产生不利影响。