Apr, 2024

我有一个关注桥要向您推销:模块化翻译架构的泛化能力

TL;DR模块化是机器翻译的一种范例,具有在训练时模型变得庞大而在推断时变得小巧的潜力。在此研究领域中,模块化方法,尤其是注意力桥,被认为通过促进语言无关的表示来改善模型的泛化能力。本文研究了模块化对翻译质量的影响,以及模块化架构在不同评估场景下的泛化情况。在给定的计算预算下,我们发现非模块化架构在所有我们研究的模块化设计中始终可比或可优。