AI 论文速递

最新

Phidias：基于参考增强扩散生成文本、图像和3D条件下的3D内容模型
本研究解决了3D建模中设计师依赖已有3D模型作为参考以创建新模型的局限性。Phidias是一种新型生成模型，通过扩散技术结合参考模型来提升3D生成的质量、泛化能力和可控性。其显著发现是，结合动态调节、自我参考增强等创新设计，显著优于现有方法
PDFa day ago
AraDiCE：大型语言模型的方言和文化能力基准
本研究旨在解决阿拉伯语在大型语言模型中方言表现不足的问题，提出了七个合成数据集，并创建了AraDiCE基准，以评估阿拉伯方言和文化意识。研究发现，虽然特定阿拉伯模型在方言任务上表现优于多语言模型，但在方言识别和生成方面仍面临重大挑战，从而彰
PDFa day ago
NVLM：开放前沿级多模态大语言模型
本研究针对当前多模态大语言模型在视觉-语言任务中的表现不足，提出了NVLM 1.0系列模型，显著提升了该领域的性能。通过综合比较现有模型，提出了一种新架构，优化了训练效率及多模态推理能力。研究表明，数据集质量和任务多样性重于规模，推动了视觉
PDFa day ago
基于LLM的代理统一建模框架：实现多主动/被动核心代理的无缝集成
本研究针对缺乏模块化的多种代理集成问题，提出LLM-Agent-UMF框架，以统一软件架构和功能定义，明确代理组件的边界。该框架通过区分核心代理和工具的不同角色，建立了合适的代理内部分结构分类，推动了多核心代理的不同体系结构的构建，强调了安
PDFa day ago
谁说的？有效的零样本聚焦注释
本研究解决了叙事中聚焦视角注释的困难，该任务在训练读者之间常常存在解读差异。论文中通过实验验证了现代大型语言模型在进行文学文本聚焦模式注释时的有效性，结果表明其与训练有素的人类注释员表现相近，展示了其在计算文学研究中的适用性。
PDFa day ago
比例特征空间中的归一化
本研究针对特征归一化在数据表达和分析中的重要性，探讨了如何根据特征的性质和后续处理方法选择适当的归一化方法。提出了一种新颖的方法，通过建立均匀特征与比例特征之间的关系，提出了两种基于非集中离散度的归一化方法，首次引入了一种改进的Jaccar
PDFa day ago
机器学习的数据集生成：应用于基于视觉的导航
本研究解决了现有训练数据集不足以验证机器学习算法在太空应用中的问题。通过开发一种稳健的方法论，生成适用于训练的图像和元数据数据集，涵盖了在轨对接和月球着陆的两个应用案例。研究表明，使用SurRender和所选实验室设施生成的数据集足以有效训
PDFa day ago
基于扩散模型方差的超声图像增强
本研究针对超声成像中普遍存在的噪声与伪影问题，提出了一种新颖的方法，将自适应波束形成与去噪扩散模型相结合，以提升图像质量。实验结果表明，该方法在单平面波采集的图像重建上表现出了显著的优势，可能在医学成像领域产生重要影响。
PDFa day ago
多样化与征服：基于多样性的迭代优化数据选择
本研究解决了如何选择最优训练数据子集的问题，强调数据多样性的重要性。我们提出了一种基于k-means聚类的迭代优化方法，通过主动学习技术调整样本选择，显著改善了对抗低质量数据的能力。研究结果显示，该方法在多个任务上达到7%的性能提升，显示出
PDFa day ago
动态功能连接的机器学习：前景、陷阱与解读
本研究针对现有机器学习在动态功能连接中的应用挑战，旨在通过分析大规模fMRI数据建立深度模型的实证指导。研究发现，当前模型在认知任务识别和疾病诊断中表现不一，提出了一般性选择机器学习方法的指导原则，以推动新的神经影像应用的发展。
PDFa day ago
面向时间序列推理的多模态大语言模型研究
本研究针对现有时间序列推理方法的不足，提出了一种新颖的多模态时间序列大语言模型（MLLM）方法，旨在实现跨领域的可泛化信息学习。通过引入轻量级时间序列编码器和链式思维增强任务，我们的模型在零样本推理任务中表现优于GPT-4o，展示了在时间序
PDFa day ago
多源数据融合的自监督学习增强多分类视网膜疾病分类的Multi-OCT-SelfNet
本研究解决了因隐私问题而导致的大型医学数据集获取难题，从而影响视网膜疾病诊断模型的开发。我们提出了一种结合多源数据的自监督学习框架，通过多模态数据集的深度理解来提高模型的泛化能力，最终在多种条件下展现出优于基线模型ResNet-50的一致性
PDFa day ago
基于图神经网络的语义分割不确定性和预测质量估计
本研究解决了在安全关键应用中，深度神经网络的性能估计问题，尤其是在语义分割领域。作者提出了一种新颖的方法，利用图神经网络建模预测段落的质量及其邻近段落之间的关系，从而提升不确定性与预测质量的估计效果。研究表明，该方法相比传统方法在性能上有显
PDFa day ago
紧凑型隐式神经表示用于平面波图像
本研究解决了超快速平面波成像中由于照射角度变化而导致的伪影和阴影问题。我们提出了一种基于隐式神经表示的创新方法，可紧凑编码多平面序列，并保持重要的方向依赖信息。该方法不仅提高了存储效率，还在量化评估中显示出显著的效果，压缩比达到约15:1。
PDFa day ago
学习空间感知的语言和音频嵌入
本研究解决了机器在理解自然语言描述音景时缺乏空间意识的问题。我们提出了一种新的模型ELSA，通过多模态对比学习训练，支持非空间音频、空间音频和开放词汇文本注释。ELSA在语义检索和三维声源定位上与最新技术竞争，特别是在音频与文本的匹配和声源
PDFa day ago
OSV：一步即可生成高质量图像到视频
本研究解决了视频扩散模型在生成高质量视频时面临的计算和时间开销问题。通过提出一种将一致性蒸馏与GAN训练有效结合的两阶段训练框架，以及一种新的视频鉴别器设计，研究展示了模型只需一步即可生成高质量视频，并且在OpenWebVid-1M基准测试
PDFa day ago
CoCA：通过宪法校准恢复多模态大型语言模型的安全意识
本研究解决了多模态大型语言模型在面对恶意视觉输入时缺乏安全意识的问题。通过将安全要求的原则融入模型输入，提出了一种简单有效的技术CoCA，显著提升了模型的安全意识而不影响其原有能力。研究表明，CoCA能够帮助模型重新获得原始的安全意识，具有
PDFa day ago
CORE-Bench：通过计算可复现性代理基准提升已发表研究的可信度
本研究针对科学研究中的计算可复现性问题，通过引入CORE-Bench基准来评估AI代理在此关键任务上的准确性。该基准提供了270个任务，涵盖计算机科学、社会科学和医学等领域，评估结果显示现有代理在最具挑战性的任务上仅达21%的准确率，强调了
PDFa day ago
人工智能建议使写作趋于西方风格并减弱文化细微差别
本研究探讨了西方中心的人工智能模型在向不同文化背景用户提供写作建议时的影响。通过对来自印度和美国的118名参与者进行的跨文化实验，我们发现人工智能在提升美国参与者效率的同时，使印度参与者采用了西方写作风格，从而减少了文化表达的细微差别。此研
PDFa day ago
RenderWorld：自监督3D标签的世界模型
本文针对视觉驱动的端到端自动驾驶系统中存在的成本和可靠性问题，提出了一种新颖的RenderWorld框架，通过自监督的高斯基础Img2Occ模块生成3D占用标签，并采用AM-VAE进行编码。研究发现，RenderWorld在4D占用预测和运
PDFa day ago