- 评估大型语言模型在语言变异维度上的性能:一项跨语言泛化的系统性调查
大语言模型在面对未知的相关语言和方言时会表现出性能下降现象,本论文通过对语言距离的建模和分析,提供了关于模型健壮性和任务特性对性能下降的洞察,为评估和缓解性能下降问题提供了便利
- 具有灵活架构的联合学习
传统的联邦学习方法对计算和通信能力不同的客户端的支持有限,导致模型训练的低效和潜在的不准确性。本文引入了具有灵活架构的联邦学习算法(FedFA),允许客户端选择适合其资源的网络架构,通过层嫁接技术和可扩展聚合方法,实现了客户端贡献的统一集成 - 多语种 ASR 中新语种整合的低秩自适应双通道模型
通过采用双流水线及低秩适应的方法,该研究应对多语言预训练自动语音识别系统中将新语言整合进去的挑战,减少既有语言性能的降低,并实现了一种与语言无关的操作模式。
- CVPRUniPTS: 一种用于熟练后训练稀疏性的统一框架
本文介绍了一种名为 UniPTS 的基于三个核心因素的 Post-training Sparsity 方法,通过转换传统的稀疏性能衰减问题来促进网络稀疏化的高效性,经过实验证实 UniPTS 比现有的 PTS 方法更为优越。
- 整数量化尺度:加速低位宽量化 LLM 的免费午餐
我们介绍了一种新的后训练量化方案 —— 整数比例,它有效地解决了当前细粒度量化方法中的推理瓶颈问题,同时保持了类似的准确性。整数比例不需要额外的校准或微调,从而避免了额外成本。它可以与大多数细粒度量化方法直接使用,最多可使原始模型的端到端速 - 超越现有技术的图像分割任务的透明度失真鲁棒性
我们提出了一种方法,用空间变化的失真合成现有数据集,实验证明这种失真效果会降低最先进的分割模型的性能。预训练和扩展模型容量证明是缓解性能降低的有效策略,而仅在失真图像上进行微调只能带来边缘性能改进。
- 低位量化的 LLaMA3 模型效果如何?实证研究
LLaMA3 在低位量化方面存在明显的性能下降问题,需要在未来的发展中弥合低位宽度下的性能差距,此经验研究对于推进未来模型的发展非常有价值。
- 优化大型语言模型的压缩方法
基于层序之差异,我们提出了 LLM-Streamline 方法,该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练,以减轻剪枝所引起的性能下降,并在综合实验中展示了其优于现有模型剪枝方法的效果。
- ACL不要愚蠢:用户意图的敌对攻击中的汇聚策略在攻击性语言检测中的应用
该研究提出了防御用户意图中的敌对攻击的简单而有效的分层池化策略,以提高对攻击性文本的检测性能。研究发现,通过使用这些池化策略,即使攻击强度增加,预训练于干净文本的模型也能够实现与预训练于含噪文本的模型相当的检测性能。
- 利用压缩帧大小实现超快速视频分类
通过检查视频的后压缩比特流进行分类,我们提出了一种新颖的方法,消除了对比特流解码的需求,并在性能上超越了传统的动态时间规整算法。
- ICLRAuG-KD:面向领域外知识蒸馏的锚点混合生成
利用不受数据限制的知识蒸馏方法(DFKD),通过不确定性导向和样本特定锚定来解决智能系统在隐私问题、性能退化和合适知识转移方面的挑战。
- 使用可解释的人工智能根本原因分析预测异常
该论文介绍了可解释人工智能在连续学习用户参与数据的机器学习模型中追溯性能退化的新应用。我们成功地将这种技术应用于提高个性化广告模型的可靠性。这种系统中的性能退化表现为模型中的预测异常。我们演示了全局特征重要性分布的时间漂移如何有效地隔离预测 - 具有有限公共数据的差分隐私模型的预训练
通过使用有限的公共数据,我们提出了一种新颖的差分隐私持续预训练策略,可以显著减轻差分隐私优化器的性能下降问题,并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率(ε=8),以及在下游任务 Places365 和 iNatu - LLM 任务干扰:关于任务切换对对话历史的影响的初步研究
通过实验发现,在使用大型语言模型进行对话时,任务切换会导致性能下降。
- 可靠的个性化贝叶斯联邦学习通过后验微调
本文提出了一种基于贝叶斯方法的个性化联邦学习框架,采用参数后验的正态化流实现了个性化,从理论上分析了正态化流对贝叶斯神经网络的异常检测的影响,并通过在异构数据集上的实验结果表明,该方法不仅提高了准确性,还在异常检测方面优于基线模型。
- BESA:使用块级参数高效稀疏分配对大型语言模型进行剪枝
本论文提出了一种名为 BESA 的新颖大型语言模型修剪技术,通过施加分块重构损失来减少整体修剪误差并以可微分方式分配层特定的稀疏性,从而确保修剪后的模型性能降低程度减少,实验结果表明 BESA 在仅五小时内能够高效地修剪带有 70B 参数的 - 深度完成的测试时间适应
通过在线测试时适应方法来解决性能衰退和域间差异问题,改善单张图像和稀疏深度图的深度完成任务。
- MT-Eval: 大型语言模型的多轮能力评估基准
通过分析人类 - 大型语言模型对话,我们将互动模式分为回忆、扩展、细化和后续四种类型,构建多轮查询来评估多轮会话能力,结果显示大多数模型在多轮设置中性能下降,影响因素为相关内容距离和错误传播敏感性。
- ACL语义敏感度与不一致预测:衡量 NLI 模型的脆弱性
通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果,我们提供了证据表明,最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性,这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12. - McUDI: 模型中心化无监督退化指示器用于故障预测 AIOps 解决方案
本文介绍了一种模型中心的无监督退化指标 (McUDI),能够检测 AIOps 模型由于数据变化而需要重训练的确切时刻,并展示了在 AIOps 解决方案的维护流程中使用 McUDI 可以减少需要注释的样本数量,对于作业故障预测减少了 30k