May, 2023

Seq2seq 模型中的 Token 级拟合问题

TL;DR研究表明,在自然语言处理方面,序列到序列 (seq2seq) 模型的早停训练会导致 token 级别出现过度拟合和欠拟合的问题,并通过实验和分析找出了对 token 级别拟合的三个主要影响因素。