BriefGPT.xyz
Ask
alpha
关键词
gated modular neural network architecture
搜索结果 - 1
混合专家中改进专家专业化能力
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
PDF
a year ago
Prev
Next