- LiveBench:一个具有挑战性和无污染的 LLM 基准测试
为了解决测试集污染和评估中的偏见问题,研究引入了一种新的测试基准 LiveBench,该基准通过包含来自最新信息源的问题和按照客观真实值自动评分的答案,来评估不同大小的封闭源和开源模型的能力。
- 高退训比例下的最小梯度相关性机器反学习
Mini-Unlearning 是一种轻量级、可扩展的方法,通过最小的一部分历史梯度以及收缩映射来有效地实现高比例的 machine unlearning,提高模型准确性并增强对隐私攻击的抵抗力。
- MLAAN:用多层跃迁增强辅助网络扩展监督局部学习
Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network (MLAAN) integrates smoothly with es - 评估模型在附近的普遍性
该论文评估了分类模型在无需依赖于标签的情况下对于分布外测试集的泛化能力,并提出了一种名为 vicinal risk proxy (VRP) 的方法来计算模型的准确性,该方法通过综合考虑邻近样本的响应来评估每个样本的正确性,从而在方法学和实验 - 通过全局架构因素上的高斯过程优化在 MobileViT 中的导航效率
通过使用高斯过程,我们系统地探索了 MobileViT 的全局架构因子(如分辨率、宽度和深度)与性能之间的非线性和不确定关系,并提出了扭转全局架构因子的设计原则,从而实现在较小的模型尺寸和计算成本下提高模型精度。
- 通过条件熵估计进行回归问题的可预测性分析
传统的回归问题中,模型准确性一直以来是一个模糊的问题,本研究引入条件熵估计器来评估回归问题中的可预测性,尤其是 KNIFE-P 估计器和 LMC-P 估计器,在合成和真实数据集上的广泛实验表明了它们的鲁棒性和实用性,为回归模型的开发提供了有 - 稀疏性与量化的有效相互作用:从理论到实践
深度神经网络的模型压缩是提高计算效率和减小内存占用的必要手段。本文通过数学证明和实证研究,发现在计算操作中先应用稀疏化再进行量化是最优的操作次序,以最小化计算误差。同时,稀疏化和量化的相互作用会对模型精度造成重要的影响,其中量化误差在这一降 - 信任自信模型 — 不确定性感知策动适应的基于模型的演员 - 评论家算法
基于模型的增强学习方法中,我们通过逐步增加模型预测长度来考虑模型的不确定性,以获得更准确的本地预测结果,并提出了一种易于调整的预测机制,相比于现有的深度增强学习方法在 MuJoCo 基准测试中获得了显著的数据效率和性能提升。
- KDDFedSAC:联邦学习中协同公平的动态子模型分配
FedSAC 是一种具有动态子模型分配的基于协作公平性的新型联邦学习框架,通过个体贡献来量身定制奖励,实现公平性,并采用子模型分配和动态聚合模块来提高整体模型准确性。
- 熵之谜:熵最小化的成功与失败
通过分析熵最小化方法在模型适应和优化过程中的作用和原因,本文提出了一个估计模型在给定任意数据集上准确性的方法,并在 23 个具有挑战性的数据集上进行了实验证明其效果在这个任务上达到了最好的状态,绝对误差平均为 5.75%,较先前最好结果提高 - FedTrans: 异质客户端之间的高效联合学习通过模型转换
FedTrans 是一个多模型联邦学习训练框架,可以自动为大规模异构客户端生成和训练高准确性、硬件兼容的模型,显著提高了个体客户端模型的准确性并降低了训练成本。
- decoupleQ:通过将参数拆分为整数和浮点数实现 2-bit 后训练统一量化
通过解耦 Q,我们提出了一种量化方法,将模型参数分解为整数部分和浮点部分,使得量化问题转化为约束条件下的数学优化问题,并通过现成的优化方法解决。该方法在线上实现了接近 fp16/bf16 准确度的 2 位量化大型语音模型,在硬件上更友好且能 - ReffAKD: 资源高效的基于自编码器的知识蒸馏
提出了一种新方法来提高知识蒸馏效率,同时不需要资源密集的教师模型。通过使用紧凑的自动编码器提取特征并计算不同类别之间的相似度得分,然后对这些相似度得分应用 softmax 函数以获得软概率向量,这个向量在学生模型的训练中作为有价值的指导。在 - 翻译困境:现代神经网络在小型逼真图像变换中仍然面临困难
通过简单的方法,我们实现了对最先进模型进行 1 像素平移的错误率降低到不到 5%,同时只有 1% 的分类准确率下降。此方法还可以轻松调整以处理循环位移,而无需任何进一步的训练。
- 正弦激活低秩矩阵用于参数高效学习
该研究提出了一个新的理论框架,将正弦函数整合到低秩分解过程中,以提高模型准确性和参数效率。该方法在 Vision Transformers(ViT)、大型语言模型(LLMs)、神经辐射场(NeRF)和 3D 形状建模中应用成功,展示了其广泛 - FLIGAN:使用 GAN 增强不完整数据的联邦学习
FLIGAN 使用生成对抗网络应对分布式学习中数据不完整的问题,通过生成合成数据提高数据集的鲁棒性和完整性,从而在高类别不平衡的场景下实现模型准确性的最多 20% 的提升。
- 少数精华:加速和增强数据重新加权与核心集选择
我们介绍了一种新颖的方法,通过核心子集选择进行重新加权,从而在计算时间和模型性能方面实现了优化,从而实现了计算效率和模型准确性之间的平衡。实验结果证实了这种方法的有效性,突出了它作为可扩展和精确的模型训练解决方案的潜力。
- 多目标进化神经架构搜索用于递归神经网络
基于多目标进化算法的循环神经网络架构搜索方法在复杂度优化期间使用近似网络形态学,结果显示该方法能够找到与最先进手动设计的循环神经网络架构相比具有可比性能但计算需求较低的新型循环神经网络架构。
- FALCON: 面向神经网络剪枝的 FLOP 感知组合优化
神经网络的计算需求逐渐增加,同时对资源有限的设备提出了部署挑战。网络剪枝是在保持性能的同时减小模型大小和计算成本的解决方案。本文提出了 FALCON,一种基于组合优化的网络剪枝框架,同时考虑了模型准确性、FLOPs 和稀疏性约束。我们的算法 - 支持现实世界事实核查的多模态大型语言模型
对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估,发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能,具备解释不合理方面和潜在动机的能力,同时已有的开源模型存在强烈的偏见,并对提示非常敏感。这项研究为对抗虚假多