AI 论文速递

最新

ReFocus：将视觉编辑视为结构化图像理解的思维链
本研究解决了当前多模态大型语言模型（LLMs）在结构化图像理解方面缺乏多跳选择性注意力的问题。我们提出的ReFocus框架，通过代码对输入图像进行视觉编辑，使LLMs能够生成“视觉思维”，显著提升了表格与图表任务的性能，平均提升分别为11.
PDF2 days ago
基于视频的自回归预训练实证研究
本研究解决了视频自回归预训练模型的有效性问题，提出了一种名为Toto的模型系列，将视频视为视觉标记序列进行训练。研究结果表明，尽管模型具有较少的归纳偏见，预训练的自回归模型在多个下游任务中表现出色，显示出与语言模型相似的扩展曲线。
PDF2 days ago
去中心化扩散模型
本文解决了大规模AI模型训练中对集中式高带宽网络的依赖，提出了一种去中心化扩散模型的框架，能在独立集群或数据中心中分布式训练扩散模型。研究表明，该方法显著降低基础设施成本，并提升了对局部GPU故障的抗击能力，同时在多个任务上超越了传统的扩散
PDF2 days ago
可解释的人工智能增强深度学习用于南瓜叶病检测：CNN架构的比较分析
本研究针对传统南瓜叶病诊断方法效率低下、易出错的问题，提出了一种自动化的深度学习解决方案。通过分析多种深度学习架构，发现ResNet50在南瓜叶病检测中表现最佳，准确率达到90.5%，并结合可解释的人工智能方法提升了模型的透明度和可靠性。研
PDF2 days ago
通过单眼深度先验的仿射校正进行相对姿态估计
本研究针对单眼深度估计模型在几何视觉任务（特别是相对姿态估计）中的应用不足进行了探索。提出的三种求解器显式考虑了独立的仿射模糊，结合经典基于点的求解器和极线约束的混合估计流程，显著提高了相对深度和绝对深度的估计效果。通过多个数据集的实验验证
PDF2 days ago
一致性流动蒸馏用于文本到3D生成
本研究解决了当前文本到3D生成中，由于最大似然寻求行为导致的视觉质量和多样性下降的问题。通过引入一致性流动蒸馏（CFD）方法，利用多视角一致的高斯噪声来提升3D生成质量，实验结果表明CFD在文本到3D生成方面显著优于以往方法。
PDF2 days ago
多模态大语言模型能否进行推理？EMMA：增强的多模态推理基准
本研究针对多模态大语言模型在文本与图像的综合推理能力不足的问题，提出了EMMA基准，旨在评估数学、物理、化学和编程等领域的有机多模态推理。研究表明，现有模型在处理复杂的多模态及多步骤推理任务时存在显著局限，强调了提升多模态架构和训练方法的必
PDF2 days ago
使用领先语言模型和大语言模型的文本网络滥用检测调查
本文针对社交媒体中普遍存在的网络滥用问题进行全面分析，探讨了语言模型和大语言模型如何改变滥用内容的检测和生成。研究发现，先进的语言模型能够提高滥用行为的自动检测系统，但也可能生成有害内容，旨在为在线安全和伦理的重要讨论提供见解。
PDF2 days ago
视频分词器的渐进式生长用于高压缩潜在空间
本研究解决了在不增加通道容量的情况下，视频分词器实现超过4倍时间压缩比的挑战。通过发现低压缩编码器生成的时间下采样视频的重建质量优于高压缩编码器的原始视频重建，提出了一种新的渐进训练高压缩块的高时间压缩模型，显著提升了重建质量和时间压缩效率
PDF2 days ago
GAN已死，GAN万岁！一种现代化的GAN基线
本研究解决了关于GAN训练难度的普遍看法，提出了一种更为原则化的现代GAN基线。通过推导出新的正则化相对GAN损失，该损失不仅解决了模式丢失和不收敛的问题，还确保了局部收敛性。R3GAN作为简化的基线模型，尽管设计简单，但在多个数据集上的表
PDF2 days ago
从简单到复杂技能：掌中物体重新定向的案例
本研究解决了在模拟中学习策略并将其转移到现实世界所面临的挑战，特别是对于新任务，需要大量的人力努力。我们提出了一种基于之前获得的旋转技能的层次化策略，用于掌中物体重新定向，该策略能够根据环境反馈和低级技能政策选择执行的低级技能。研究表明，该
PDF2 days ago
$DPF^*$：改进的深度势能函数用于尺度不变的脑沟深度估计
本研究解决了全球脑尺寸对脑沟深度测量几何特征影响的研究空白，首次定量分析了脑尺寸与脑沟深度之间的关系。我们提出了一种新颖的尺度不变脑沟深度估计方法，并通过验证框架验证了该方法的有效性，展示了新测量在发育期的生物学相关性。
PDF2 days ago
2024年神经符号人工智能：系统评价
本研究针对神经符号人工智能领域的研究空白进行了系统评估，发现学习与推理、逻辑与推理以及知识表示是研究的主要集中领域，而可解释性和可信度等方面的研究则相对不足。论文通过分析2020至2024年间的相关论文，提出结合跨学科研究以填补在可解释性、
PDF2 days ago
平面视觉
本研究解决了在投影平面中，如何将两组标记点投影到同一投影线图像的问题。通过提出新的投影中心位置的描述，研究发现解决方案的存在与这两组数据是否为同一投影空间点集的图像密切相关。该工作为理解投影几何中的图像生成提供了新的视角和深入见解。
PDF2 days ago
零-1到-G：驯服预训练的二维扩散模型以实现直接的三维生成
本研究解决了直接三维生成因三维数据集稀缺和质量低下而面临的挑战。提出的Zero-1-to-G方法通过引入Gaussian splats，使得预训练的二维扩散模型得以直接生成单视图，利用多视图图像来编码不同属性，并通过交叉视图和交叉属性注意力
PDF2 days ago
从图像到洞察：利用可解释的人工智能转变脑癌诊断
本研究解决了脑癌诊断中存在的精确性和及时性不足的问题，提出了一种基于深度学习的创新方法，并使用了来自孟加拉国的脑癌MRI数据集。关键发现是，DenseNet169模型在脑癌分类中达到了0.9983的卓越精度，且应用可解释人工智能技术增强了模
PDF2 days ago
LongProc：在长程序生成中对长上下文语言模型进行基准测试
本研究解决了现有长上下文语言模型（LCLMs）基准测试中对长上下文回忆的局限性，提出了一个新的基准LongProc，要求模型整合分散信息并进行长篇生成。研究发现，尽管所有模型声称具有超过32K的上下文窗口大小，但在长生成任务中，模型普遍存在
PDF2 days ago
通过视觉组装声音进行音频到图像生成
本研究解决了音频到图像生成模型训练所需的音视频配对数据稀缺问题。我们提出了一种可扩展的图像声化框架，通过现代视觉语言模型的推理能力，将不同模态的数据进行人工配对。研究结果显示，该方法训练的模型在性能上与最先进的技术相当，并展示了多种有趣的听
PDF2 days ago
梅奥诊所、夏里特医院和Aignostics提出的新型病理基础模型
本研究解决了数字病理领域模型性能不足的问题，提出了一种基于RudolfV方法的新型视觉基础模型。该模型在来自梅奥诊所和夏里特医学大学的120万张组织病理全切片图像上进行了训练，并在21个公共基准数据集上实现了领先的表现，展示了其显著的应用潜
PDF2 days ago
TimeRL：具有多面体依赖图的高效深度强化学习
本研究针对复杂深度强化学习算法中数据依赖性的问题，提出了一种新颖的TimeRL系统，结合了动态执行的灵活性与图形执行的全程序优化。TimeRL通过引入递归张量的声明式编程模型，实现了动态数据依赖的表达，从而在执行速度上比现有系统快达47倍，
PDF2 days ago