May, 2023

少即是多:优化语言翻译的精简架构

TL;DR研究使用 KgV 提出了一种结合了 sigmoid 门控机制和 softmax 注意力机制的模型框架,同时采用张量链来减少嵌入层的超参数,并引入了 H-SoftPOS 当作嵌入层,相较于现有技术在性能和内存成本方面都有显著提高,并命名该体系结构为 Anthe。