Nov, 2023

循环变压器在学习学习算法方面更好

TL;DR提出了一种使用循环变压器架构和相关训练方法的方法,旨在将迭代特性纳入变压器架构中,实现与标准变压器相媲美的性能,在解决各种数据拟合问题时使用少于 10%的参数数量。