Aug, 2024

将变压器视为所罗门夫归纳法的近似

TL;DR本研究探讨了所罗门夫归纳法在序列预测中的最优性,提出变压器模型在接近这一理想的预测能力上优于其他方法。我们提供了支持和反对这一假设的证据,并提出了考虑这些证据的替代假设,展望了未来在此基础上对变压器及其他人工智能的建模方向。