BriefGPT.xyz
大模型
Ask
alpha
关键词
hidden activations
搜索结果 - 3
现代 LLM 的量化中异常值和校准集的影响逐渐减小
通过减少内存使用和提高操作速度,后训练量化(PTQ)能够增强大型语言模型(LLMs)的效率和与更多硬件的兼容性,尽管会导致一定的性能下降。然而,我们的研究发现在不同已知的开源 LLMs 中,校准集对于评估激活幅度和检测异常值至关重要,异常值
→
PDF
a month ago
基于类别的激活解读深度双下降之谜
该研究重新审视了双下降现象,探讨其发生条件,并引入类激活矩阵的概念和一种估计函数有效复杂性的方法,揭示超参数化模型在隐藏激活中展现出更明显和更简单的类别模式。通过全面分析并提供相应的实证证据来验证或反驳这些假设,旨在为双下降现象和良性超参数
→
PDF
2 months ago
LLMs 的不确定性估计与量化:一种简单的监督方法
通过使用标记的数据集,本文研究了针对大型语言模型(LLMs)的不确定性估计和校准问题,提出了一个监督学习方法来估计 LLMs 响应的不确定性,并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性,同时区分
→
PDF
2 months ago
Prev
Next