AI 论文速递

最新

使用单个训练示例的强化学习在大型语言模型中的推理能力
本研究解决了大型语言模型在数学推理能力上的不足问题，提出了通过使用单个训练示例进行验证奖励的强化学习方法（1-shot RLVR）。研究表明，该方法有效地提升了模型在多个数学挑战中的表现，尤其是将Qwen2.5-Math-1.5B在MATH
PDFa day ago
平衡在线类增量学习中的包容性训练分离和隐式知识交互
该研究解决了在线类增量学习（OCIL）中保持旧类和新类知识平衡的挑战。论文提出了一种新的回放方法——平衡在线增量学习（BOIL），采用包容性训练分离策略，利用双分类器实现旧类与新类知识的有效整合，并通过隐式方法增强知识传递。实验结果表明，B
PDFa day ago
在协同进化半监督学习GAN中生成多个子代
本研究旨在解决现有协同进化半监督学习生成对抗网络（SSL-GAN）的局限性，尤其是其每代仅生成一个个体的问题。提出了一种新的协同进化方法，即协同精英SSL-GAN（CE-SSLGAN），通过采用泛米克种群、精英替代策略以及生成多个子代来提升
PDFa day ago
PRISM：基于投影的奖励整合用于场景感知的少量演示的真实到模拟到真实转移
本研究解决了机器人在初始位置和物体姿势变化下开发鲁棒性策略的难题。我们提出了一种集成的真实到模拟到真实的管道，通过图像识别场景物体并从库中检索其3D模型来构建模拟环境。此外，我们引入了一种基于投影的奖励模型，为强化学习策略培训提供支持，最终
PDFa day ago
MuRAL：一个使用自然语言标注的多住居民环境传感器数据集，用于日常活动识别
本研究解决了现有环境传感器数据集中缺乏自然语言标注和上下文丰富性的问题。我们提出了MuRAL数据集，它包含来自智能家居环境中21个会话的多用户传感器数据，提供了细粒度的自然语言描述和活动标签。研究表明，尽管大型语言模型在解析环境数据方面展现
PDFa day ago
高效令牌注入攻击：通过自适应令牌压缩促使大型语言模型停止推理
本研究针对大型语言模型（LLM）存在的"思考停止"漏洞进行了深入探讨，提出了一种新颖的攻击方法——"推理中断攻击"，利用自适应令牌压缩简化了攻击的提示词结构。实验表明，该方法能有效减少提示词长度，同时保持攻击效果，对提升LLM的安全性具有重
PDFa day ago
群体相对知识蒸馏：学习教师的关系性归纳偏置
本研究针对现有知识蒸馏方法忽视教师模型相对预测中重要的关系性归纳偏置的问题，提出了群体相对知识蒸馏（GRKD）框架。GRKD通过关注类别之间的相对排名来提炼教师知识，实验表明该方法在需要细粒度分类的任务中相较于现有方法表现出更优的泛化能力，
PDFa day ago
数据集转移流的持续因果效应估计
本研究解决了在线环境中因时间数据集转移所带来的复杂性，旨在提升因果效应估计在市场优化中的表现。我们提出的增量因果效应与代理知识蒸馏（ICE-PKD）框架通过多处理提升网络和增量训练策略，能够有效应对用户行为和领域分布的变化，实验结果表明该框
PDFa day ago
基于强化学习增强的基础模型GUI代理总结
该研究针对图形用户界面（GUI）代理的最新进展进行了系统总结，尤其是基于强化学习的架构。文章提出了将GUI代理任务形式化为马尔可夫决策过程，并对其训练方法进行了分类，突出展示了多模态感知、决策推理和自适应动作生成的创新如何显著提升GUI代理
PDFa day ago
TAMO：基于工具辅助的LLM智能体的细粒度根本原因分析与多模态观察数据
本研究解决了传统根本原因分析在自动故障响应中的局限性，通过提出TAMO，一个利用多模态观察数据的工具辅助LLM智能体，来实现细粒度的根本原因分析。TAMO通过统一多模态观察数据为时间对齐的表示，并结合专业的根本原因定位与故障分类工具，显著提
PDFa day ago
通过分层大语言模型提示增强新闻推荐
本研究解决了个性化新闻推荐系统难以有效捕捉用户偏好复杂性的问题。提出的PNR-LLM方法利用大语言模型的生成能力丰富新闻标题和摘要，从而提升推荐质量。实验表明，PNR-LLM在MIND数据集上优于现有的先进基线，并且其数据丰富模块适用于多种
PDFa day ago
基于听觉感知的合成语音MOS预测模型(APG-MOS)
本研究针对自动语音质量评估中的主观感知模型不足的问题，提出了一种新的听觉感知导向的MOS预测模型(APG-MOS)。该模型通过整合生物听觉机制与语义分析，提高了与人类判断的一致性，实验结果显示其在主要基准上的表现优于现有模型，具有显著的影响
PDFa day ago
在脉冲神经网络知识蒸馏中考虑头尾的KL散度
本研究解决了脉冲神经网络（SNN）在性能上与人工神经网络（ANN）之间的差距，提出了一种新的知识蒸馏方法——头尾关注的KL散度（HTA-KL）。该方法通过动态区分高低概率区域并分配适应性权重，提升了知识转移的平衡性，最终在多个数据集上的表现
PDFa day ago
人工智能心理学研究——首因效应是否影响ChatGPT及其他大型语言模型？
本研究探讨了三种商业大型语言模型（LLMs）中首因效应的影响，包括ChatGPT、Gemini和Claude。研究通过类比Asch（1946）进行的经典实验，发现ChatGPT倾向于优先选择描述中积极形容词在前的候选人，而Gemini表现出
PDFa day ago
GaLore 2：通过梯度低秩投影进行大规模LLM预训练
本研究解决了大语言模型在训练过程中面临的显著内存瓶颈问题。通过梯度低秩投影，GaLore 2 提供了一种高效且可扩展的框架，克服了SVD计算开销及与先进训练并行化策略整合的挑战。研究表明，GaLore 2可通过高达5000亿个训练标记从零开
PDFa day ago
ARCS：带有迭代优化的代理检索增强代码合成
本研究针对超级计算中高效代码生成的难题，提出一种名为ARCS的先进框架，旨在准确、稳健且高效地进行代码生成、补全和翻译。通过结合检索增强生成与推理链的方法，ARCS系统性地拆解复杂编程任务，实现了显著优于传统方法的代码翻译和生成质量，展示了
PDFa day ago
RV-Syn：基于结构化函数库的合理且可验证的数学推理数据合成
本研究解决了大语言模型在数学推理中对高质量推理数据的需求，针对现有数据合成方法在生成过程中的逻辑掌握和解决方案可验证性问题，提出了RV-Syn，一种新的合理且可验证的数学合成方法。实验结果表明，RV-Syn在数据规模扩展效率上超过了现有方法
PDFa day ago
CrashFixer：Linux内核崩溃解决代理
本研究针对现有代码大型语言模型（LLMs）在处理Linux内核崩溃时面临的局限性，提出了一种新的软件修复代理CrashFixer。通过借鉴内核开发者的工作流程，本文构建了一个改进的平台kGymSuite，并展示了通过生成假设来解决复杂系统中
PDFa day ago
傅里叶谱神经网络：基于傅里叶谱方法的碰撞算子近似以求解玻尔兹曼方程
该研究解决了玻尔兹曼方程在非弹性碰撞和高维速度域中数值解法计算成本高的问题。提出的傅里叶谱神经网络(FourierSpecNet)将傅里叶谱方法与深度学习结合，在傅里叶空间中高效地近似碰撞算子，能够实现超分辨率预测且不需要重新训练。研究表明
PDFa day ago
通过离线仿真和大语言模型进行软件脚本自动化的技能发现
本研究解决了脚本接口对缺乏编程知识用户的高门槛问题，提出了一种离线仿真框架，通过利用大语言模型和公开的脚本指南，创建了经过验证的特定软件技能集。实验表明，该框架显著提高了自动化成功率，并优化了响应时间和运行成本，展示了在受控环境中利用执行反
PDFa day ago