Sep, 2023

通过电路效率解释通俗易懂

TL;DR一种最令人惊讶的神经网络概括性的难题是理解:一个在训练中完美的网络但在概括性上表现糟糕,经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点:理解发生在任务允许概括性解和记忆化解的情况下,其中概括性解的学习速度较慢但更高效,用相同参数范数产生较大的对数后验概率。我们提出假设,记忆化电路在训练数据集越大时变得越不高效,而概括性电路则不会,这提示存在一个关键数据集大小,在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测,为我们的解释提供了重要证据。最引人注目的是,我们展示了两种新的令人惊讶的行为:非理解,在这种情况下,网络从完美的测试准确性回退到低的测试准确性;半理解,在这种情况下,网络表现出对部分而不是完美的测试准确性的延迟概括。