KDDJun, 2021

关于训练样本记忆的研究:大规模竞赛生成模型评测的经验教训

TL;DR通过设计和部署生成建模竞赛来批判性地评估能够被轻松操纵的启发式度量标准,在竞赛中,我们收到了超过 11,000 个提交的模型,并提出了新的度量标准来检测意图记忆 (MiFID)。我们进一步检查了竞赛中表现最好的 1000 个模型的代码,并手动标记了不同形式的记忆,发现非故意记忆是一个严重而普遍的问题。