AI 论文速递

最新

大语言模型训练的神经热力学定律
本研究针对当前大语言模型训练的理论空白，提出了神经热力学定律（NTL）这一新框架。通过对热力学量及经典热力学原理的分析，研究为学习率调度的设计提供了直观指导，具有重要的理论与实践意义。
PDFa day ago
MathCoder-VL：连接视觉与代码以增强多模态数学推理
本研究解决了现有多模态模型在数学推理中忽视数学图形细节的问题。通过利用代码作为跨模态对齐的监督，提出了图像到代码模型FigCodifier及其配套数据集ImgCode-8.6M，开创性地合成数学图形并构建高质量的MM-MathInstruc
PDFa day ago
可行性重要吗？理解可行性对合成训练数据的影响
本研究解决了合成数据在训练CLIP分类器时的可行性问题。我们提出VariReal，利用文本提示对源图像进行最小编辑，以生成合成图像，并发现可行性对模型的分类性能影响微乎其微。我们的主要发现是，训练集中混合可行和不可行图像不会显著影响分类性能
PDFa day ago
通过多模态推理实现实时的分布外故障预防
该研究解决了大型视觉和语言模型在处理分布外(OOD)故障时推理延迟高的问题，限制了其自动安全干预能力。提出的FORTRESS框架能够实时生成和推理语义安全的后备策略，有效避免了手动干预的依赖。研究表明，FORTRESS在安全分类准确性上超越
PDFa day ago
深入理解大型语言模型的推理能力
本研究探讨了大型语言模型在动态环境中的自我学习和推理能力，指出当前模型在计划、推理和空间协调等重要领域存在固有局限。通过系统评估自我反思、启发式变异和规划作为提示技术的有效性，结果显示更大的模型在一般表现上优于较小模型，但战略性提示能够缩小
PDFa day ago
LibIQ：面向 O-RAN dApps 的实时频谱分类
本研究针对 O-RAN 架构中实时频谱分类的不足，提出了 LibIQ，一个用于 RF 信号的创新库，旨在通过高效的数据处理与信号分类，克服 RAN 和 RIC 之间的数据延迟和隐私问题。通过在 5G 部署的 Colosseum 网络模拟器上
PDFa day ago
知识捕捉、适应与组合（KCAC）：一种机器人操作中的跨任务课程学习框架
本研究解决了强化学习在机器人操作中面临的样本低效和可解释性不足的问题。通过提出知识捕捉、适应与组合（KCAC）框架，系统性地将知识转移整合进跨任务课程学习中，我们的工作在一个复杂的机器人操作环境中实现了40%的训练时间缩短和10%的任务成功
PDFa day ago
多令牌预测需要寄存器
本研究解决了多令牌预测在语言模型预训练中的应用效果未能普遍推广到微调等其他场景的问题。我们提出的MuToR方法通过将可学习的寄存器令牌交错到输入序列中，旨在有效地进行未来目标的预测。研究表明，MuToR在多种应用场景中表现出色，尤其适用于有
PDFa day ago
PnPXAI：一种提供跨多种模式和模型的自动解释的通用可解释人工智能框架
本研究解决了现有可解释人工智能（XAI）框架在处理不同神经网络架构和数据模式时的局限性问题。提出的PnPXAI框架具备自动检测模型架构、推荐适用解释方法及优化超参数的能力，显著提高了解释的灵活性和有效性。实验结果表明，PnPXAI能够在医疗
PDFa day ago
UniEval：统一多模态理解与生成的统一整体评估
本研究解决了统一多模态理解与生成模型缺乏统一评估框架的问题。我们提出了UniEval框架，它简化并统一了评估过程，不再依赖额外的模型、图像或注释。实验结果表明UniEval的整体基准和评估指标在挑战性和与人类评估的一致性方面优于现有的评估方
PDFa day ago
通过扩散时间步反向传播微调扩散策略
本研究解决了扩散策略在决策场景下因示范数据的亚最优和有限覆盖而导致的次优轨迹生成问题。提出了NCDPO框架，将扩散策略重新构造为噪声条件的确定性策略，从而实现可追踪的似然评估和梯度反向传播，显著提高了样本效率，并在多种基准测试中显示出优于现
PDFa day ago
AI代理与具代理性的AI：概念分类、应用与挑战
本文研究在AI代理与具代理性的AI之间进行了重要区分，提供了结构化的概念分类、应用映射和挑战分析，以澄清它们不同的设计理念和能力。研究表明，具代理性的AI代表了多智能体协作和自主性的发展，并提出了针对各自范式的应用领域与挑战的解决方案，旨在
PDFa day ago
叠加导致神经网络的稳健缩放
本研究解决了当前大型语言模型（LLMs）中神经缩放规律的起源不明的问题，提出了一个基于叠加和特征频率的玩具模型。研究发现，当叠加效应强烈时，损失与模型维度成反比关系，并且在分析开源LLMs时，这种预测得到了验证，表明叠加表示是神经缩放规律的
PDFa day ago
视觉语言模型识别虚拟物体的困难
本研究探讨了视觉语言模型在理解场景的虚拟物体方面存在的不足。研究提出通过描述虚拟物体来测试AI系统的场景理解能力，发现当前先进的视觉语言模型在处理虚拟对象时表现不佳，揭示了其在多模态输入处理上的局限性。
PDFa day ago
大语言模型在理解代码方面对语义保持变异的鲁棒性如何？
本研究解决了大语言模型在编程任务中理解代码的推理和鲁棒性问题。通过采用五种保持语义的代码变异，我们评估了多个最先进的LLM是否能够正确理解Python程序，发现一些模型在61%的案例中基于错误推理作出正确预测，且对代码变异的预测变化显示出其
PDFa day ago
IN-RIL：用于策略微调的交替强化学习与模仿学习
本文解决了现有模仿学习与强化学习结合方法在微调阶段的不稳定性和样本效率低下的问题。作者提出了一种新的方法IN-RIL，通过在多次强化学习更新后定期注入模仿学习更新，结合了模仿学习的稳定性和专家数据的指导，从而提高了微调过程中的探索效率。实验
PDFa day ago
基于偏好嵌入的异常检测方法PIF
本文针对结构模式下的异常检测问题，提出了一种新颖的异常检测方法PIF，该方法结合了自适应隔离方法的优势和偏好嵌入的灵活性。实验结果表明，PIF在合成和真实数据集上优于现有的异常检测技术，证明PI-Forest在测量任意距离和隔离偏好空间中的
PDFa day ago
基于无配对数据的轻量级智能手机ISP学习
本研究解决了开发学习型图像信号处理器（ISP）时需获得像素级对齐的数据的困难问题。提出了一种新颖的无配对训练方法，通过对抗性训练与多个鉴别器的多项损失函数，维护内容结构并从目标RGB数据集中学习颜色和纹理特征。实验结果显示，与配对训练方法相
PDFa day ago
生成语义通信中的视觉保真度指数与关键数据嵌入
本研究针对生成语义通信过程中的视觉细节缺失及缺乏系统性评估指标的问题，提出了一种结合关键数据嵌入的混合生成语义通信系统。通过语义过滤选择与语义标签相关的图像关键特征，并提出生成视觉信息保真度（GVIF）指标，以量化生成图像的视觉质量，实验结
PDFa day ago
重新思考大型语言模型在代码生成中的重复问题
本研究解决了代码生成中存在的结构性重复问题，这是之前研究主要集中于内容重复之外的更广泛且具有挑战性的难题。提出了一种名为RPG的高效解码方法，通过利用语法规则识别重复问题，并逐步降低导致重复的关键令牌的概率，显著减少生成代码中的重复现象。实
PDFa day ago