BriefGPT.xyz
大模型
Ask
alpha
关键词
athena
搜索结果 - 3
Athena:大规模语言模型的高效块级后训练量化方法,使用二阶矩阵导数信息
提出了 Athena 算法,通过使用损失函数的曲率信息,将参数分组并进行迭代优化量化过程,通过更新模型参数和 Hessian 矩阵,在保持高准确性的同时实现显著的压缩,从而成为在各种环境中部署大型语言模型的实用解决方案。
PDF
a month ago
EMNLP
ATHENA: 数理推理中的思维扩展
使用注意力机制的 THought Expansion Network Architecture (ATHENA) 模型通过模仿人类思维扩展机制中的神经网络传播形式,解决实际世界的数学问题挑战,并在训练示例信息受限的情况下,在各种问题中取得了
→
PDF
8 months ago
ATHENA:基于多样弱防御的框架用于构建对抗性防御
提出了一种面向攻击的通用防御框架 ATHENA,采用弱防御的多样性设计原则,通过多种实现在零知识、黑盒、灰盒和白盒四种威胁模型下的评估,证明其高效并具有可扩展性,同时也说明了其高效性的原因和相关开销。
PDF
5 years ago
Prev
Next