May, 2023
少即是多:优化语言翻译的精简架构
Less is More! A slim architecture for optimal language translation
Luca Herranz-Celotti, Ermal Rrapaj
TL;DR研究使用 KgV 提出了一种结合了 sigmoid 门控机制和 softmax 注意力机制的模型框架,同时采用张量链来减少嵌入层的超参数,并引入了 H-SoftPOS 当作嵌入层,相较于现有技术在性能和内存成本方面都有显著提高,并命名该体系结构为 Anthe。