ACLMar, 2022

数据污染:从记忆到利用

TL;DR本研究根据预训练语言模型在联合语料库上进行分析,发现在一些情况下存在信息的利用,但在其他情况下,模型只是纯粹地记住了数据,但并没有利用学到的知识,这两种情况受到了多重因素的影响,如污染数据的数量和模型的大小,在区分语言理解和数据利用方面,对于大规模的互联网语料库的分析具有重要意义。