Oct, 2023

通过任务提示改进 Transformer 的长度泛化

TL;DR使用任务提示的方法改善长度泛化问题,在经典的排序问题上验证了其有效性,并通过探测和可视化技术提出了模型学习行为的理论构建,进一步提高了模型在未知长度上的性能。