AI 论文速递

最新

探索人类与共享自主车辆交互：心理所有权与拟人化对用户体验的影响
本研究解决了有限研究背景下的大型语言模型驱动的共享自主车辆用户界面（UI）如何影响用户认知和采纳意图的问题。通过设计四种不同拟人特征和心理所有权触发机制的SAV UI，研究发现更具拟人化和心理所有权引发的对话式UI能显著改善用户对SAV人性
PDF2 days ago
基于变换器的复杂查询在知识超图上的回答
该研究针对复杂查询回答（CQA）中的知识图谱表示不足的问题，提出了一种新的两阶段变换器模型——逻辑知识超图变换器（LKHGT）。此模型通过引入类型感知偏置（TAB）来增强对复杂逻辑操作的处理能力，实验结果表明，LKHGT在CQA任务中表现优
PDF2 days ago
层次性思维与动态行动：用于视觉与语言导航的层次多模态融合与推理
本研究解决了视觉与语言导航中的复杂多模态交互问题，提出了一种多层融合与推理架构（MFRA），用于增强代理在视觉观测、语言指令和导航历史上的推理能力。MFRA通过层次化的融合机制和推理模块显著提高了复杂导航场景中的决策准确性，其在多个基准数据
PDF2 days ago
边缘设备低秩一-shot图像检测模型的联邦学习：可扩展的准确性与计算复杂度
本研究解决了在边缘设备上训练低秩一-shot图像检测模型所面临的计算和通信开销问题。提出的LoRa-FL框架通过结合低秩适应技术，显著降低了计算和通信成本，同时保持可扩展的准确性。实验结果表明，该方法在多个数据集上表现出竞争力的检测性能，表
PDF2 days ago
放大漏洞：基于LLM的多智能体辩论中的结构化监狱破解攻击
本研究针对多智能体辩论(MAD)框架中存在的监狱破解攻击漏洞进行了系统性调查，揭示了其在复杂任务中的推理能力提升与安全性之间的矛盾。创新性地提出了一种结构化提示重写框架，通过叙事封装、角色驱动升级等方式，显著增加了MAD系统的脆弱性，攻击成
PDF2 days ago
关于开发者自我声明AI生成代码的实践分析
本研究解决了开发者在软件开发中自我声明AI生成代码的需求与实践空白。通过对GitHub代码库的分析和行业调查，本研究发现大多数开发者（76.6%）在一定程度上会自我声明AI生成代码，其主要原因包括未来审查和调试的需要以及伦理考虑。研究为开发
PDF2 days ago
原子之舞——基于扩散模型的新颖蛋白质设计
本研究解决了当前蛋白质设计中的有效性和成本问题，通过介绍扩散模型在新蛋白质设计中的应用，显示其优于传统方法的成功率和成本效益。该研究的关键发现是RFDiffusion模型在25个蛋白质设计任务中的表现显著优于以往的设计方法，预示着未来蛋白质
PDF2 days ago
基于大型语言模型的软件测试的即时保证：开放研究挑战
本研究解决了自动化软件测试中一些基本概念不明确且未被充分探讨的问题，尤其是在大型语言模型生成软件测试的背景下。论文正式定义了“硬化测试”和“捕获测试”的属性，并提出了即时捕获（JiTTest）挑战，展示了如何在生产环境之前生成测试以捕捉新故
PDF2 days ago
ManipDreamer：通过动作树和视觉引导提升机器人操控世界模型
本研究解决了现有机器人操控视频合成中指令跟随和视觉质量提升的不足，通过引入动作树结构和视觉引导，改进了指令原语之间的关系学习。研究表明，ManipDreamer在视频质量和指令跟随能力上显著提升，评估显示其在未见任务中的PSNR和SSIM均
PDF2 days ago
T-VEC：通过深度三元组损失微调增强语义理解的电信特定向量化模型
该研究解决了自然语言处理模型在电信行业专用术语和复杂概念上的不足，引入了专为电信领域量身定制的嵌入模型T-VEC。通过深度微调和三元组损失目标，T-VEC展示了在电信特定评估基准上的卓越性能，推动了电信AI创新的发展。
PDF2 days ago
EMRModel：用于将医疗咨询对话提取为结构化医疗记录的大型语言模型
本研究针对医疗咨询对话中信息未能有效利用的问题，提出了一种新的解决方案EMRModel，通过结合基于LoRA的微调和代码风格的提示设计，有效地将对话转化为结构化电子医疗记录。实验结果显示，该模型在医疗记录提取任务中取得了88.1%的F1得分
PDF2 days ago
使用偏好优化合成数据的私有联邦学习
本研究针对传统差分隐私联邦学习方法中合成数据的有效性不足的问题，提出了一种新算法——私人客户数据的偏好优化（POPri）。该算法利用客户反馈，通过偏好优化算法生成高质量的差分隐私合成数据，显著提高了模型在联邦数据集上的性能，闭合了完全隐私与
PDF2 days ago
iTFKAN：基于Kolmogorov-Arnold网络的可解释时间序列预测
该研究解决了当前深度预测方法在可解释性方面的不足，这限制了在安全关键应用中的信任度和实际部署。本文提出了一种新颖的可解释模型iTFKAN，通过模型符号化实现可解释性，并结合先验知识注入和时频协同学习，从而有效引导复杂交织时间序列数据下的模型
PDF2 days ago
大型语言模型能否帮助多模态语言分析？MMLA：全面基准测试
本研究针对多模态语言分析领域的一个重要空白，即现有多模态大型语言模型（MLLMs）在理解认知级语义方面的能力不足。我们提出了MMLA基准测试，以评估和提升多模态语义理解，通过分析超过61,000条多模态发言，发现即使经过优化的模型准确率仅在
PDF2 days ago
基础模型驱动的推荐系统综述：从基于特征的、生成式到智能代理范式
本研究探讨了基础模型在推荐系统中的应用，填补了现有方法在处理多模态数据整合方面的空白。通过分析基础模型在推荐系统中提升表示学习和自然语言理解的能力，研究提出了三种主要的推荐范式。此外，重点揭示了未来研究方向及面临的技术挑战，推动了推荐系统的
PDF2 days ago
PixelWeb：首个具有像素级标签的网页GUI数据集
本文解决了现有GUI数据集中自动标注造成的不准确元素边界框（BBox）标注问题，包括缺失、重复或无意义的区域。研究提出的PixelWeb数据集采用新颖的自动注释方法，结合视觉特征提取和文档对象模型（DOM）结构分析，提供了超过100,000
PDF2 days ago
FeedQUAC：快速无干扰的AI生成评论
本研究解决了设计过程中获取持续反馈的劳动密集和干扰性问题。我们提出的FeedQUAC是一种设计助手，通过不同角色提供实时的AI生成评论，促使设计师利用这种轻量级反馈来提升创作流程。研究表明，这种环境反馈在便利性、趣味性、信心提升和灵感启发方
PDF2 days ago
基于互联网视频自动检测牛跛行的可行性评估
本研究解决了牛跛行检测中的数据来源和处理流程的不足，提出了一种基于深度学习的视频分析模型。通过使用公开视频数据，研究表明该模型，尤其是3D CNN，在视频级分类上达到90%的准确率，有效地简化了传统方法并提升了模型的鲁棒性。
PDF2 days ago
ConTextual：通过保持上下文的令牌过滤和知识图谱改善临床文本摘要
本研究解决了如何从无结构临床数据中提取相关上下文的问题，传统方法往往忽视重要信息。提出的ConTextual框架结合了上下文保持的令牌过滤方法和领域特定的知识图谱，显著提高了临床文本生成的语言连贯性和临床真实性。实证评估表明，该方法在多个基
PDF2 days ago
PINN-MEP：用于分子系统最低能量路径发现的连续神经表示
本研究解决了物理系统中构象转变的建模问题，提出了一种通过物理信息神经网络（PINNs）对最低能量路径（MEP）生成的优化方法。通过将转变路径表示为隐式神经函数并结合自动微分技术，我们的方法能够高效发现物理上合理的转变路径，显著提高了对重要生
PDF2 days ago