- 迭代还是创新?针对代码优化的问题导向视角
大语言模型在代码优化方面展示出强大的能力,通过将优化对构建成面向问题的方法,结合不同程序员对同一问题的巧妙思路,实验证明了适应面向问题的优化对能显著提升大语言模型的优化能力,进一步通过模型合并解决性能瓶颈,达到了新的高水平。
- CLST: 将生成式语言模型对齐作为学生知识追踪器来缓解知识追踪中的冷启动问题
知识追踪通过将学生的问题解决历史用于估计其当前的知识水平,已引起研究人员的广泛关注。然而,大多数现有的知识追踪模型都是基于 ID 的范式开发的,这在冷启动性能方面存在局限性。本研究通过将生成式大型语言模型作为学生的知识追踪器(CLST)来缓 - 基于贝叶斯说服的高效无模型对齐
通过使用较小的模型,引入一种模型不可知且轻量级的贝叶斯说服对齐框架,为对齐黑盒大模型提供高效方法。在使用该框架进行训练后,希望我们的工作能够提供从贝叶斯说服的视角重新审视对齐框架的初步步骤,并取得优于先前模型的性能提升。
- ICLRGTA: 借助导引的增强离线学习中的生成轨迹增强
离线强化学习中,利用生成轨迹增强(GTA)的数据增强策略可以提高数据质量并改善算法性能。
- 数据集分解:使用可变序列长度课程进行更快的 LLM 训练
通过数据集分解、变长序列训练技术、性能增强等方法,实现了对大型语言模型的高效训练和提升。
- IJCAI消极刺激与心理学在大型语言模型增强中的应用
负性提示将消极情绪刺激引入大型语言模型,提供了一种提高性能的机制,通过实验评估和注意力可视化得到了相关结果,为真实世界应用中大型语言模型的改进提供了新的见解。
- SQUAT: 循环脉冲神经网络中具有状态的量化感知训练
使用权重量化和量化感知训练 (QAT) 技术,研究了在功耗较低的神经网络中,通过为状态变量进行量化以提高推断性能的效果,并发现将量化级别密集分布在阈值附近可以提高准确性。在多个数据集上进行的实验评估表明,QAT 和状态量化训练 (SQUAT - 视觉 Transformer 网络的效率提升:设计技术与洞见
通过重新设计注意力机制,本研究对视觉变换网络(ViT)中的注意力机制进行了全面探索,以提高其性能。包括理论基础、基本概念、关注机制的系统分类以及性能评估等方面的综述。
- 用模型遗忘方法提升生成式类增量学习性能
本研究通过引入遗忘机制,提出了一种新颖的生成类增量学习(GCIL)方法,旨在动态管理类信息以更好地适应流数据。通过实验证明,将遗忘机制整合到 GCIL 中,显著提高了模型在获取新知识方面的性能,凸显了策略性遗忘在不断学习过程中的积极作用。
- 多测试的层级特征融合增强外部分布检测
提出一种名为多测试层级异分布检测(MLOD)的框架,通过严格的多测试程序,在不需要修改或微调预训练分类器的结构的情况下,能够在不同特征层级上识别测试样本中的分布偏移,并通过有效利用不同深度的特征提取器,有效提高异分布检测性能。
- 基于随机采样的整张切片图像分类的多实例学习
在计算病理学中,通过对抽样补丁进行训练的多实例学习(MIL)方法在计算效率上是高效的,并且作为一种正则化策略。本研究探讨了不同采样大小对性能趋势以及对模型可解释性的影响,并在 CAMELYON16 数据集上使用 30% 的补丁实现了 1.7 - SIBO:用于参数高效微调的简单增强
通过注入初始残差,SIBO 提出了一种简单的增强参数高效微调(PEFT)技术,以减轻过度平滑现象并提高性能。实验证明,SIBO 显著改善了各种强基线的性能,分别在算术和常识推理任务上实现了 15.7%和 23.5%的改进。
- 视觉超对齐:视觉基础模型的弱到强泛化
利用弱模型监督强模型以提升性能,采用新颖的自适应可调整损失函数进行弱强监督的综合实验,超越了基准性能和使用整个数据集进行微调的结果,展示了弱强泛化在提升视觉模型性能方面的重大潜力。
- 不确定性感知者
Perceiver 模型在架构上具有少量假设,相对于 ResNet-50 和 ViT,在准确度方面具备一定竞争力,但忽略了预测不确定性和校准,并通过五个 Perceiver 改进,即 Uncertainty-Aware Perceivers - AAAIQAGait:从质量角度重访步态识别
通过质量评估策略和质量感知损失函数,提出了一种质量视角下的步态识别方法(QAGait),可解决实际场景中出现的低质量和具有挑战性的步态问题,并显著提高步态可靠性和性能表现。
- 元认知是否就足够了?在生成式代理中使用内省来改进目标导向行为
介绍了一种元认知模块,使生成式智能体能够观察自己的思维过程和行为,从而显著提高性能并改进策略。在多种情景中进行了测试,包括求生僵尸启示录,发现我们的系统胜过其他系统,而且智能体随着时间适应并改进任务策略。
- 优化医学基础模型的多尺度和跨模态特征学习
提出的方法有效地利用多尺度和跨模态信息来增强医学基础模型的性能,同时结合局部、实例、模态和全局方面的特征,促进了模型内的综合表示学习,通过在六个开源数据集上的评估表明了其增强医学基础模型性能的能力。
- 知识蒸馏的关键因素剖析
知识蒸馏是一种模型压缩和性能提升的技术,在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用,验证了有关这些因素对知识蒸馏影响的假设,同时提出了一种新颖的优化蒸馏方法,实现了 - 目标计数中的点注释恢复的噪声自编码器
通过引入 Noised Autoencoders(NAE)方法,从注释中提取一般位置知识,解决目标计数中的标注不一致性问题,显著提高模型训练性能,帮助在九个数据集上创造新记录。
- 关于 Transformer 模型的长程能力
通过对 Transformer 架构进行最小的修改,引入长距离任务的归纳偏差、位置性等重要特性以提升性能,并为成功捕捉长距离依赖关系确定了关键属性。