Oct, 2021

ÚFAL 在 MultiLexNorm 2021 中:通过对 ByT5 进行微调来提高多语种词汇规范化

TL;DR使用基于 ByT5 的预训练语言模型,并在合成数据上进行进一步的预训练,然后在正式标准化数据上进行微调,可以实现在 MultiLexNorm 竞赛中最佳性能表现的多语言词汇规范化系统。在本文中,我们介绍了该系统的细节和表现结果。